Detección de valores atípicos utilizando desviaciones estándar

27

Siguiendo mi pregunta aquí , me pregunto si hay opiniones fuertes a favor o en contra del uso de la desviación estándar para detectar valores atípicos (por ejemplo, cualquier punto de datos que tenga más de 2 desviaciones estándar es un valor atípico).

Sé que esto depende del contexto del estudio, por ejemplo, un punto de datos, 48 ​​kg, ciertamente será un valor atípico en un estudio sobre el peso de los bebés, pero no en un estudio sobre el peso de los adultos.

Los valores atípicos son el resultado de una serie de factores, como los errores de entrada de datos. En mi caso, estos procesos son robustos.

Creo que la pregunta que hago es: ¿Es la desviación estándar un método de sonido para detectar valores atípicos?

Amarald
fuente
1
Usted dice: "En mi caso, estos procesos son robustos". ¿Que quieres decir? ¿Estás seguro de que no tienes errores de entrada de datos?
Wayne
¡Hay tantas buenas respuestas aquí que no estoy seguro de qué respuesta aceptar! Cualquier orientación sobre esto sería útil
Amarald
En general, seleccione el que sienta que responde a su pregunta de manera más directa y clara, y si es demasiado difícil de decir, elegiría el que tenga los votos más altos. Incluso es un poco doloroso decidir cuál, es importante recompensar a alguien que se tomó el tiempo para responder.
Wayne
1
PD ¿Podría aclarar con una nota lo que quiere decir con "estos procesos son sólidos"? No es crítico para las respuestas, que se centran en la normalidad, etc., pero creo que tiene algo que ver.
Wayne
3
Los valores atípicos no están libres de modelos. Un valor atípico inusual en un modelo puede ser un punto perfectamente ordinario en otro. La primera pregunta debería ser "¿por qué estás tratando de detectar valores atípicos?" (en lugar de hacer otra cosa, como usar métodos robustos para ellos), y el segundo sería "¿qué hace que una observación sea atípica en su aplicación particular?"
Glen_b -Reinstate a Monica el

Respuestas:

26

Algunos valores atípicos son claramente imposibles . Mencionas 48 kg para el peso del bebé. Esto es claramente un error. Ese no es un problema estadístico , es sustantivo. No hay bebés humanos de 48 kg. Cualquier método estadístico identificará tal punto.

Personalmente, en lugar de confiar en cualquier prueba (incluso las apropiadas, según lo recomendado por @Michael), graficaría los datos. El hecho de que un determinado valor de datos (o valores) sea improbable bajo alguna distribución hipotética no significa que el valor sea incorrecto y, por lo tanto, los valores no deberían eliminarse automáticamente solo porque son extremos.

Además, la regla que propone (2 SD de la media) es antigua y se usaba en los días anteriores a que las computadoras facilitaran las cosas. Si N es 100,000, entonces ciertamente espera bastantes valores más de 2 SD de la media, incluso si hay una distribución normal perfecta.

Pero, ¿y si la distribución es incorrecta? Supongamos que, en la población, la variable en cuestión no se distribuye normalmente, pero tiene colas más pesadas que eso.

Peter Flom - Restablece a Monica
fuente
1
¿Cuál es el mayor valor del peso del bebé que considerarías posible?
mark999
2
No lo sé. Pero uno podría buscar el registro. De acuerdo con answers.com (de un rápido google) pesaba 23,12 libras, nacido de dos padres con gigantismo. Si estuviera haciendo la investigación, comprobaría más.
Peter Flom - Restablece a Monica
¿Qué pasa si no se puede inspeccionar visualmente los datos (es decir, que podría ser parte de un proceso automático?)
user90772
Agregue gráficos a la automatización, de alguna manera.
Peter Flom - Restablece a Monica
24

Sí. Es una mala manera de "detectar" nuestros resultados. Para datos distribuidos normalmente, dicho método llamaría "valores atípicos" al 5% de las observaciones perfectamente buenas (aunque ligeramente extremas). Además, cuando tiene una muestra de tamaño n y busca observaciones extremadamente altas o bajas para llamarlos valores atípicos, realmente está mirando las estadísticas de orden extremo. El máximo y el mínimo de una muestra normalmente distribuida no se distribuye normalmente. Por lo tanto, la prueba debe basarse en la distribución de los extremos. Eso es lo que hacen la prueba de Grubbs y la prueba de relación de Dixon, como he mencionado varias veces antes. Incluso cuando usa una prueba apropiada para valores atípicos, una observación no debe rechazarse solo porque es inusualmente extrema. Debe investigar por qué la observación extrema ocurrió primero.

Michael R. Chernick
fuente
1
Tan "malo" como rechazar H0 basado en un valor p bajo.
Leo
16

Cuando pregunte cuántas desviaciones estándar de la media es un valor atípico potencial, no olvide que el valor atípico en sí mismo elevará la DE y también afectará el valor de la media. Si tiene N valores, la razón de la distancia desde la media dividida por la SD nunca puede exceder (N-1) / sqrt (N). Esto es lo más importante, por supuesto, con muestras pequeñas. Por ejemplo, si N = 3, ningún valor atípico puede ser más de 1.155 * SD de la media, por lo que es imposible que cualquier valor sea más de 2 SD de la media. (Esto supone, por supuesto, que está calculando la SD de muestra a partir de los datos disponibles, y no tiene una razón teórica para conocer la SD de la población).

Los valores críticos para la prueba de Grubbs se calcularon para tener esto en cuenta y, por lo tanto, dependen del tamaño de la muestra.

Harvey Motulsky
fuente
12

Creo que el contexto lo es todo. Para el ejemplo dado, sí, claramente, un bebé de 48 kg es erróneo, y el uso de 2 desviaciones estándar captaría este caso. Sin embargo, no hay razón para pensar que el uso de 2 desviaciones estándar (o cualquier otro múltiplo de SD) sea apropiado para otros datos. Por ejemplo, si observa residuos de pesticidas en aguas superficiales, los datos más allá de 2 desviaciones estándar son bastante comunes. Estos valores particularmente altos no son "valores atípicos", incluso si residen lejos de la media, ya que se deben a eventos de lluvia, aplicaciones recientes de pesticidas, etc. Por supuesto, puede crear otras "reglas generales" (¿por qué no 1.5 × SD, o 3.1415927 × SD?), Pero francamente tales reglas son difíciles de defender, y su éxito o fracaso cambiará dependiendo de los datos que esté examinando. Creo que usar el juicio y la lógica, a pesar de la subjetividad, es un mejor método para deshacerse de los valores atípicos, en lugar de utilizar una regla arbitraria. En este caso, no necesitaba una tarjeta SD 2 × para detectar el valor atípico de 48 kg; pudo razonarlo. ¿No es ese un método superior? Para los casos en los que no puede razonar, bueno, ¿las reglas arbitrarias son mejores?

P auritus
fuente