Me pregunto si hay una manera simple de detectar valores atípicos.
Para uno de mis proyectos, que era básicamente una correlación entre la cantidad de veces que los encuestados participan en actividades físicas en una semana y la cantidad de veces que comen fuera de casa (comida rápida) en una semana, dibujé un diagrama de dispersión y literalmente eliminé puntos de datos que fueron extremos. (El diagrama de dispersión mostró una correlación negativa).
Esto se basó en el juicio de valor (basado en el diagrama de dispersión donde estos puntos de datos eran claramente extremos). No hice ninguna prueba estadística.
Me pregunto si esta es una buena manera de tratar con los valores atípicos.
Tengo datos de 350 personas, por lo que la pérdida de (digamos) 20 puntos de datos no es una preocupación para mí.
fuente
Respuestas:
No hay una forma sencilla de eliminar los valores atípicos. Los valores atípicos pueden ser de dos tipos:
1) Errores de entrada de datos. Estos son a menudo los más fáciles de detectar y siempre los más fáciles de manejar. Si puede encontrar los datos correctos, corríjalos; si no, elimínelo.
2) Datos legítimos que son inusuales. Esto es mucho más complicado. Para datos bivariados como el suyo, el valor atípico podría ser univariado o bivariado.
a) Univariante. Primero, "inusual" depende de la distribución y el tamaño de la muestra. Nos da el tamaño de muestra de 350, pero ¿cuál es la distribución? Claramente no es normal, ya que es un número entero relativamente pequeño. Lo que es inusual bajo un Poisson no estaría bajo un binomio negativo. Sospecho que existe una relación binomial negativa inflada a cero.
Pero incluso cuando tenga la distribución, los valores atípicos (posibles) afectarán los parámetros. Puede ver las distribuciones de "dejar uno afuera", donde verifica si el punto de datos q sería un valor atípico si los datos tuvieran todos los puntos menos q. Aun así, sin embargo, ¿qué pasa si hay múltiples valores atípicos?
b) bivariado. Aquí es donde el valor de ninguna de las variables es inusual en sí mismo, pero en conjunto son impares. Existe un posible informe apócrifo de que el censo dijo una vez que había 20,000 viudas de 12 años en los Estados Unidos. Los niños de 12 años no son inusuales, las viudas tampoco, pero las viudas de 12 años sí.
Dado todo esto, podría ser más simple informar una medida sólida de la relación.
fuente
He investigado mucho sobre valores atípicos, particularmente cuando trabajé en la validación de datos de energía en Oak Ridge de 1978 a 1980. Hay pruebas formales de valores atípicos univariantes para datos normales (por ejemplo, la prueba de Grubbs y la prueba de relación de Dixon). Hay pruebas para valores atípicos multivariados y series de tiempo. El libro de Barnett y Lewis sobre "Valores atípicos en datos estadísticos" es la biblia sobre los valores atípicos y cubre casi todo.
Cuando estaba en Oak Ridge trabajando en la validación de datos, teníamos grandes conjuntos de datos multivariados. Para los valores atípicos univariantes hay una dirección para los extremos (muy por encima de la media y muy por debajo de la media). Pero para los valores atípicos multivariantes hay muchas direcciones para buscar valores atípicos. Nuestra filosofía era considerar cuál es el uso previsto de los datos. Si está tratando de estimar ciertos parámetros, como una correlación bivariada o un coeficiente de regresión, entonces desea mirar en la dirección que proporcione el mayor efecto en el parámetro de interés. En ese momento había leído el artículo no publicado de Mallows sobre las funciones de influencia. El uso de funciones de influencia para detectar valores atípicos está cubierto en el libro de análisis multivariado de Gnanadesikan. Por supuesto, también puedes encontrarlo en Barnett y Lewis.
La función de influencia para un parámetro se define en puntos en el espacio multivariado de las observaciones y esencialmente mide la diferencia entre la estimación del parámetro cuando se incluye el punto de datos en comparación con cuando se omite. Puede hacer tales estimaciones con cada punto de muestra, pero generalmente puede derivar una buena forma funcional para la función de influencia que proporciona información y un cálculo más rápido.
Por ejemplo, en mi artículo en el American Journal of Mathematical and Management Science en 1982 "La función de influencia y su aplicación a la validación de datos", muestro la fórmula analítica para la función de influencia para la correlación bivariada y que los contornos de influencia constante son hipérbolas. Entonces, los contornos muestran la dirección en el plano donde la función de influencia aumenta más rápidamente.
En mi artículo muestro cómo aplicamos la función de influencia para la correlación bivariada con los datos del Formulario 4 de FPC sobre generación y consumo de energía. Existe una clara correlación positiva alta entre los dos y encontramos algunos valores atípicos que influyeron mucho en la estimación de la correlación. La investigación adicional mostró que al menos uno de los puntos estaba en error y pudimos corregirlo.
Pero un punto importante que siempre menciono cuando discuto los valores atípicos es que el rechazo automático está mal. El valor atípico no siempre es un error y, a veces, proporciona información importante sobre los datos. Los datos válidos no deben eliminarse solo porque no se ajustan a nuestra teoría de la realidad. Ya sea que sea difícil de hacer o no, siempre se debe investigar la razón por la cual ocurrió el caso atípico.
Debo mencionar que esta no es la primera vez que se analizan los valores atípicos multivariados en este sitio. Una búsqueda de valores atípicos probablemente conduciría a varias preguntas en las que se han discutido valores atípicos multivariantes. Sé que he hecho referencia a mi trabajo y estos libros antes y les he dado enlaces a ellos.
Además, cuando se discute el rechazo atípico, muchos de nosotros en este sitio hemos recomendado no hacerlo, especialmente si se realiza basándose únicamente en una prueba estadística. Peter Huber a menudo menciona una estimación sólida como una alternativa al rechazo atípico. La idea es que los procedimientos robustos reducirán el peso de los valores atípicos y reducirán su efecto en la estimación sin el paso pesado de rechazarlos y usar un estimador no robusto.
La función de influencia fue desarrollada originalmente por Frank Hampel en su tesis doctoral a principios de la década de 1970 (creo que en 1974). En realidad, su idea era utilizar funciones de influencia para identificar estimadores que no fueran robustos frente a valores atípicos y ayudar a desarrollar estimadores robustos.
Aquí hay un enlace a una discusión previa sobre este tema donde mencioné algunos trabajos míos sobre la detección de valores atípicos en series de tiempo utilizando funciones de influencia.
fuente
Otro enfoque simple para tratar los valores atípicos es utilizar estadísticas no paramétricas. Probablemente con el tamaño de su muestra, un rho de Spearman funcionaría bien como índice de la correlación. (Tenga en cuenta, sin embargo, que las estadísticas no paramétricas de orden de rango no le ayudan mucho con las relaciones no lineales).
Si desea usar la r de Pearson (una estadística paramétrica), y si no puede calcular la distancia de Cook, puede usar una regla general que indique que cualquier punto de datos que esté a más de 2.67 desviaciones estándar (sd) de la media , o 4.67 sd de la media es un valor atípico o extremo, respectivamente. Estos son valores de corte típicos para valores atípicos y puntos de datos extremos que se utilizan en un programa de análisis estadístico estándar (SPSS).
El hecho de que un punto de datos sea un valor atípico no significa que se descarten datos incorrectos. Puede calcular su correlación con y sin puntos extremos e ir desde allí.
fuente
Es posible que desee probar la distancia de Cook. Vea el artículo de Wikipedia para los puntos de corte sugeridos. Además, si se dirige hacia algún modelo de regresión, puede intentar una regresión robusta.
fuente
En primer lugar, ¡no elimine valores atípicos a menos que esté seguro de que están fuera del estudio! Pueden contener información importante (variabilidad). Debe descartarlos si es obvio que el valor atípico se debe a datos medidos o ingresados incorrectamente. Si no conoce el método de muestreo utilizado para obtener sus datos, debe identificar los valores atípicos y sus efectos de la siguiente manera:
Grado de anormalidad: se espera un 5% de las observaciones con residuos estandarizados (miyo∗ )> 2. Si tiene algunos residuos más altos, puede sospechar valores atípicos.
Grado de distancia al centro de gravedad en el espacio de x:hyo i (apalancamiento). Cuando algunashyo i es muy alto, tiene una observación que puede distorsionar su modelo porque está fuera del rango de su estudio.
Grado de influencia en el modelo ajustado: los puntos de influencia son aquellos que tienen el peso suficiente para cambiar su modelo. Entonces, los cofficientes del modelo ajustado usando todas las n observaciones son muy diferentes de los coeficientes del modelo ajustado usando todos los puntos pero no esta observaciónyo -th. D Cyo= e i ∗2⋅ hyo i/ [(1- hyo i) ⋅ p ]
La distancia de Cook o D de Cook es una estimación comúnmente utilizada de la influencia de un punto de datos. :
Soluciones posibles:
fuente