Siguiendo mi pregunta aquí , me pregunto si hay opiniones fuertes a favor o en contra del uso de la desviación estándar para detectar valores atípicos (por ejemplo, cualquier punto de datos que tenga más de 2 desviaciones estándar es un valor atípico).
Sé que esto depende del contexto del estudio, por ejemplo, un punto de datos, 48 kg, ciertamente será un valor atípico en un estudio sobre el peso de los bebés, pero no en un estudio sobre el peso de los adultos.
Los valores atípicos son el resultado de una serie de factores, como los errores de entrada de datos. En mi caso, estos procesos son robustos.
Creo que la pregunta que hago es: ¿Es la desviación estándar un método de sonido para detectar valores atípicos?
Respuestas:
Algunos valores atípicos son claramente imposibles . Mencionas 48 kg para el peso del bebé. Esto es claramente un error. Ese no es un problema estadístico , es sustantivo. No hay bebés humanos de 48 kg. Cualquier método estadístico identificará tal punto.
Personalmente, en lugar de confiar en cualquier prueba (incluso las apropiadas, según lo recomendado por @Michael), graficaría los datos. El hecho de que un determinado valor de datos (o valores) sea improbable bajo alguna distribución hipotética no significa que el valor sea incorrecto y, por lo tanto, los valores no deberían eliminarse automáticamente solo porque son extremos.
Además, la regla que propone (2 SD de la media) es antigua y se usaba en los días anteriores a que las computadoras facilitaran las cosas. Si N es 100,000, entonces ciertamente espera bastantes valores más de 2 SD de la media, incluso si hay una distribución normal perfecta.
Pero, ¿y si la distribución es incorrecta? Supongamos que, en la población, la variable en cuestión no se distribuye normalmente, pero tiene colas más pesadas que eso.
fuente
Sí. Es una mala manera de "detectar" nuestros resultados. Para datos distribuidos normalmente, dicho método llamaría "valores atípicos" al 5% de las observaciones perfectamente buenas (aunque ligeramente extremas). Además, cuando tiene una muestra de tamaño n y busca observaciones extremadamente altas o bajas para llamarlos valores atípicos, realmente está mirando las estadísticas de orden extremo. El máximo y el mínimo de una muestra normalmente distribuida no se distribuye normalmente. Por lo tanto, la prueba debe basarse en la distribución de los extremos. Eso es lo que hacen la prueba de Grubbs y la prueba de relación de Dixon, como he mencionado varias veces antes. Incluso cuando usa una prueba apropiada para valores atípicos, una observación no debe rechazarse solo porque es inusualmente extrema. Debe investigar por qué la observación extrema ocurrió primero.
fuente
Cuando pregunte cuántas desviaciones estándar de la media es un valor atípico potencial, no olvide que el valor atípico en sí mismo elevará la DE y también afectará el valor de la media. Si tiene N valores, la razón de la distancia desde la media dividida por la SD nunca puede exceder (N-1) / sqrt (N). Esto es lo más importante, por supuesto, con muestras pequeñas. Por ejemplo, si N = 3, ningún valor atípico puede ser más de 1.155 * SD de la media, por lo que es imposible que cualquier valor sea más de 2 SD de la media. (Esto supone, por supuesto, que está calculando la SD de muestra a partir de los datos disponibles, y no tiene una razón teórica para conocer la SD de la población).
Los valores críticos para la prueba de Grubbs se calcularon para tener esto en cuenta y, por lo tanto, dependen del tamaño de la muestra.
fuente
Creo que el contexto lo es todo. Para el ejemplo dado, sí, claramente, un bebé de 48 kg es erróneo, y el uso de 2 desviaciones estándar captaría este caso. Sin embargo, no hay razón para pensar que el uso de 2 desviaciones estándar (o cualquier otro múltiplo de SD) sea apropiado para otros datos. Por ejemplo, si observa residuos de pesticidas en aguas superficiales, los datos más allá de 2 desviaciones estándar son bastante comunes. Estos valores particularmente altos no son "valores atípicos", incluso si residen lejos de la media, ya que se deben a eventos de lluvia, aplicaciones recientes de pesticidas, etc. Por supuesto, puede crear otras "reglas generales" (¿por qué no 1.5 × SD, o 3.1415927 × SD?), Pero francamente tales reglas son difíciles de defender, y su éxito o fracaso cambiará dependiendo de los datos que esté examinando. Creo que usar el juicio y la lógica, a pesar de la subjetividad, es un mejor método para deshacerse de los valores atípicos, en lugar de utilizar una regla arbitraria. En este caso, no necesitaba una tarjeta SD 2 × para detectar el valor atípico de 48 kg; pudo razonarlo. ¿No es ese un método superior? Para los casos en los que no puede razonar, bueno, ¿las reglas arbitrarias son mejores?
fuente