¿Hay una manera simple de detectar valores atípicos?

14

Me pregunto si hay una manera simple de detectar valores atípicos.

Para uno de mis proyectos, que era básicamente una correlación entre la cantidad de veces que los encuestados participan en actividades físicas en una semana y la cantidad de veces que comen fuera de casa (comida rápida) en una semana, dibujé un diagrama de dispersión y literalmente eliminé puntos de datos que fueron extremos. (El diagrama de dispersión mostró una correlación negativa).

Esto se basó en el juicio de valor (basado en el diagrama de dispersión donde estos puntos de datos eran claramente extremos). No hice ninguna prueba estadística.

Me pregunto si esta es una buena manera de tratar con los valores atípicos.

Tengo datos de 350 personas, por lo que la pérdida de (digamos) 20 puntos de datos no es una preocupación para mí.

correlation outliers Amarald
fuente

Ver también las respuestas a la pregunta similar definición rigurosa de un valor atípico

Jonas

3

También está muy relacionado con stats.stackexchange.com/questions/175 . Muchos posibles métodos de detección de valores atípicos se describen en las respuestas en stats.stackexchange.com/questions/213 . Pero más importante sería algún contexto : ¿qué estás haciendo con este diagrama de dispersión? ¿Qué conclusiones tratas de sacar de él? Algunas conclusiones dependerán poco de lo que hagas con los valores atípicos, mientras que otras pueden depender de ellas de manera crítica. Esto indica que los métodos que utiliza para identificar y tratar los valores atípicos deben depender del análisis previsto.

whuber

En los conjuntos de datos económicos, la práctica estándar es simplemente decir "Windsorizamos el conjunto de datos al 2.5% y 97.5%", o alternativamente al 1% y al 99%. Luego simplemente eliminan las observaciones que están fuera de ese rango cuantílico.

@ Harokitty Winsorising parece significar recortar los valores en lugar de descartarlos.

Peter Wood

Le recomendaría que también informe el diagrama de dispersión sin editar, aparte de cualquier error en el registro de datos. Es posible que pueda haber una o más poblaciones distintas adicionales. Para ver un ejemplo, vea la entrada de Wikipedia para el diagrama de Hertzsprung – Russell en en.wikipedia.org/wiki/Hertzsprung%E2%80%93Russell_diagram

Robert Jones

21

No hay una forma sencilla de eliminar los valores atípicos. Los valores atípicos pueden ser de dos tipos:

1) Errores de entrada de datos. Estos son a menudo los más fáciles de detectar y siempre los más fáciles de manejar. Si puede encontrar los datos correctos, corríjalos; si no, elimínelo.

2) Datos legítimos que son inusuales. Esto es mucho más complicado. Para datos bivariados como el suyo, el valor atípico podría ser univariado o bivariado.

a) Univariante. Primero, "inusual" depende de la distribución y el tamaño de la muestra. Nos da el tamaño de muestra de 350, pero ¿cuál es la distribución? Claramente no es normal, ya que es un número entero relativamente pequeño. Lo que es inusual bajo un Poisson no estaría bajo un binomio negativo. Sospecho que existe una relación binomial negativa inflada a cero.

Pero incluso cuando tenga la distribución, los valores atípicos (posibles) afectarán los parámetros. Puede ver las distribuciones de "dejar uno afuera", donde verifica si el punto de datos q sería un valor atípico si los datos tuvieran todos los puntos menos q. Aun así, sin embargo, ¿qué pasa si hay múltiples valores atípicos?

b) bivariado. Aquí es donde el valor de ninguna de las variables es inusual en sí mismo, pero en conjunto son impares. Existe un posible informe apócrifo de que el censo dijo una vez que había 20,000 viudas de 12 años en los Estados Unidos. Los niños de 12 años no son inusuales, las viudas tampoco, pero las viudas de 12 años sí.

Dado todo esto, podría ser más simple informar una medida sólida de la relación.

Peter Flom - Restablece a Monica
fuente

Gracias. Estoy pensando que tal vez una elipse de confianza sería un buen indicador de valores atípicos, ya que mostraría el porcentaje de datos que se encontrarían dentro de un cierto nivel de confianza (dada la distribución normal bivariada).

Amarald

Sus datos no pueden ser bivariados normales, ya que están compuestos de enteros no negativos

Peter Flom - Restablecer Monica

18

He investigado mucho sobre valores atípicos, particularmente cuando trabajé en la validación de datos de energía en Oak Ridge de 1978 a 1980. Hay pruebas formales de valores atípicos univariantes para datos normales (por ejemplo, la prueba de Grubbs y la prueba de relación de Dixon). Hay pruebas para valores atípicos multivariados y series de tiempo. El libro de Barnett y Lewis sobre "Valores atípicos en datos estadísticos" es la biblia sobre los valores atípicos y cubre casi todo.

Cuando estaba en Oak Ridge trabajando en la validación de datos, teníamos grandes conjuntos de datos multivariados. Para los valores atípicos univariantes hay una dirección para los extremos (muy por encima de la media y muy por debajo de la media). Pero para los valores atípicos multivariantes hay muchas direcciones para buscar valores atípicos. Nuestra filosofía era considerar cuál es el uso previsto de los datos. Si está tratando de estimar ciertos parámetros, como una correlación bivariada o un coeficiente de regresión, entonces desea mirar en la dirección que proporcione el mayor efecto en el parámetro de interés. En ese momento había leído el artículo no publicado de Mallows sobre las funciones de influencia. El uso de funciones de influencia para detectar valores atípicos está cubierto en el libro de análisis multivariado de Gnanadesikan. Por supuesto, también puedes encontrarlo en Barnett y Lewis.

La función de influencia para un parámetro se define en puntos en el espacio multivariado de las observaciones y esencialmente mide la diferencia entre la estimación del parámetro cuando se incluye el punto de datos en comparación con cuando se omite. Puede hacer tales estimaciones con cada punto de muestra, pero generalmente puede derivar una buena forma funcional para la función de influencia que proporciona información y un cálculo más rápido.

Por ejemplo, en mi artículo en el American Journal of Mathematical and Management Science en 1982 "La función de influencia y su aplicación a la validación de datos", muestro la fórmula analítica para la función de influencia para la correlación bivariada y que los contornos de influencia constante son hipérbolas. Entonces, los contornos muestran la dirección en el plano donde la función de influencia aumenta más rápidamente.

En mi artículo muestro cómo aplicamos la función de influencia para la correlación bivariada con los datos del Formulario 4 de FPC sobre generación y consumo de energía. Existe una clara correlación positiva alta entre los dos y encontramos algunos valores atípicos que influyeron mucho en la estimación de la correlación. La investigación adicional mostró que al menos uno de los puntos estaba en error y pudimos corregirlo.

Pero un punto importante que siempre menciono cuando discuto los valores atípicos es que el rechazo automático está mal. El valor atípico no siempre es un error y, a veces, proporciona información importante sobre los datos. Los datos válidos no deben eliminarse solo porque no se ajustan a nuestra teoría de la realidad. Ya sea que sea difícil de hacer o no, siempre se debe investigar la razón por la cual ocurrió el caso atípico.

Debo mencionar que esta no es la primera vez que se analizan los valores atípicos multivariados en este sitio. Una búsqueda de valores atípicos probablemente conduciría a varias preguntas en las que se han discutido valores atípicos multivariantes. Sé que he hecho referencia a mi trabajo y estos libros antes y les he dado enlaces a ellos.

Además, cuando se discute el rechazo atípico, muchos de nosotros en este sitio hemos recomendado no hacerlo, especialmente si se realiza basándose únicamente en una prueba estadística. Peter Huber a menudo menciona una estimación sólida como una alternativa al rechazo atípico. La idea es que los procedimientos robustos reducirán el peso de los valores atípicos y reducirán su efecto en la estimación sin el paso pesado de rechazarlos y usar un estimador no robusto.

La función de influencia fue desarrollada originalmente por Frank Hampel en su tesis doctoral a principios de la década de 1970 (creo que en 1974). En realidad, su idea era utilizar funciones de influencia para identificar estimadores que no fueran robustos frente a valores atípicos y ayudar a desarrollar estimadores robustos.

Aquí hay un enlace a una discusión previa sobre este tema donde mencioné algunos trabajos míos sobre la detección de valores atípicos en series de tiempo utilizando funciones de influencia.

Michael R. Chernick
fuente

2

Otro enfoque simple para tratar los valores atípicos es utilizar estadísticas no paramétricas. Probablemente con el tamaño de su muestra, un rho de Spearman funcionaría bien como índice de la correlación. (Tenga en cuenta, sin embargo, que las estadísticas no paramétricas de orden de rango no le ayudan mucho con las relaciones no lineales).

Si desea usar la r de Pearson (una estadística paramétrica), y si no puede calcular la distancia de Cook, puede usar una regla general que indique que cualquier punto de datos que esté a más de 2.67 desviaciones estándar (sd) de la media , o 4.67 sd de la media es un valor atípico o extremo, respectivamente. Estos son valores de corte típicos para valores atípicos y puntos de datos extremos que se utilizan en un programa de análisis estadístico estándar (SPSS).

El hecho de que un punto de datos sea un valor atípico no significa que se descarten datos incorrectos. Puede calcular su correlación con y sin puntos extremos e ir desde allí.

Joel W.
fuente

1

Es posible que desee probar la distancia de Cook. Vea el artículo de Wikipedia para los puntos de corte sugeridos. Además, si se dirige hacia algún modelo de regresión, puede intentar una regresión robusta.

Eric Brown
fuente

1

Esto parece más un comentario que una respuesta; Las respuestas suelen ser más largas y detalladas. Por ejemplo, si incluyó un razonamiento de por qué la distancia de Cook es una buena prueba para los valores atípicos y, por lo tanto, sería una respuesta.

Peter Flom - Restablece a Monica

1

En primer lugar, ¡no elimine valores atípicos a menos que esté seguro de que están fuera del estudio! Pueden contener información importante (variabilidad). Debe descartarlos si es obvio que el valor atípico se debe a datos medidos o ingresados incorrectamente. Si no conoce el método de muestreo utilizado para obtener sus datos, debe identificar los valores atípicos y sus efectos de la siguiente manera:

Grado de anormalidad: se espera un 5% de las observaciones con residuos estandarizados ( $e_i*$ )> 2. Si tiene algunos residuos más altos, puede sospechar valores atípicos.
Grado de distancia al centro de gravedad en el espacio de x: $h_{ii}$ (apalancamiento). Cuando algunas $h_{ii}$ es muy alto, tiene una observación que puede distorsionar su modelo porque está fuera del rango de su estudio.
Grado de influencia en el modelo ajustado: los puntos de influencia son aquellos que tienen el peso suficiente para cambiar su modelo. Entonces, los cofficientes del modelo ajustado usando todas las n observaciones son muy diferentes de los coeficientes del modelo ajustado usando todos los puntos pero no esta observación $i$ -th.
La distancia de Cook o D de Cook es una estimación comúnmente utilizada de la influencia de un punto de datos. : $DC_i=ei*^2·h_{ii}/[(1-h_{ii})·p]$

Soluciones posibles:

Transformando variables y / o agregando nuevas variables al modelo.
Para observaciones influyentes que no son más que valores atípicos, si no muchos, puede eliminar a esos individuos.

usuario7334982
fuente

¿Hay una manera simple de detectar valores atípicos?

Respuestas: