Estoy realizando análisis de regresión múltiple y no estoy seguro de si se deben eliminar los valores atípicos en mis datos. Los datos que me preocupan aparecen como "círculos" en los diagramas de caja de SPSS, sin embargo, no hay asteriscos (lo que me hace pensar que no son "tan malos"). Los casos que me preocupan aparecen en la tabla de "diagnósticos por caso" en la salida. Por lo tanto, ¿debería eliminar estos casos?
regression
outliers
Luego
fuente
fuente
Respuestas:
Marcar valores atípicos no es una decisión judicial (o, en cualquier caso, no tiene por qué serlo). Dado un modelo estadístico, los valores atípicos tienen una definición precisa y objetiva: son observaciones que no siguen el patrón de la mayoría de los datos. Dichas observaciones deben separarse al inicio de cualquier análisis simplemente porque su distancia del grueso de los datos garantiza que ejercerán una atracción desproporcionada en cualquier modelo multivariable ajustado por la máxima probabilidad (o incluso cualquier otra función de pérdida convexa).
Es importante señalar que multivariable valor atípico s puede simplemente no ser detectado de forma fiable utilizando residuos de un ajuste de mínimos cuadrados (o cualquier otro modelo estimado por ML, o cualquier otra función de pérdida convexa). En pocas palabras, los valores atípicos multivariables solo pueden detectarse de manera confiable usando sus residuos de un modelo ajustado usando un procedimiento de estimación que no es susceptible de ser influenciado por ellos.
La creencia de que los valores atípicos necesariamente se destacarán en los residuos de un ajuste clásico se ubica en algún lugar con otros no-estadísticos difíciles de desacreditar, como interpretar los valores p como medida de evidencia o hacer inferencia en una población de una muestra sesgada. Excepto quizás que este podría ser mucho más antiguo: el propio Gauss recomendó el uso de estimadores robustos como la mediana y la locura (en lugar de la media clásica y las desviaciones estándar) para estimar los parámetros de una distribución normal a partir de observaciones ruidosas (incluso yendo en cuanto a derivar el factor de consistencia del loco (1)).
Para dar un ejemplo visual simple basado en datos reales, considere los datos infames de la estrella CYG . La línea roja aquí representa el ajuste de menor cuadrado, la línea azul que obtuvo el ajuste usando un ajuste de regresión lineal robusto. El ajuste robusto aquí es el ajuste FastLTS (2), una alternativa al ajuste LS que se puede usar para detectar valores atípicos (porque utiliza un procedimiento de estimación que garantiza que la influencia de cualquier observación sobre el coeficiente estimado esté limitada). El código R para reproducirlo es:
Curiosamente, las 4 observaciones externas a la izquierda ni siquiera tienen los residuos más grandes con respecto al ajuste LS y el gráfico QQ de los residuos del ajuste LS (o cualquiera de las herramientas de diagnóstico derivadas de ellos, como la distancia de Cook o el dfbeta) no muestra ninguno de ellos como problemático. Esta es realmente la norma: no se necesitan más de dos valores atípicos (independientemente del tamaño de la muestra) para obtener las estimaciones de LS de tal manera que los valores atípicos no se destaquen en un gráfico residual. Esto se llama efecto de enmascaramientoy está bien documentado Quizás lo único notable sobre el conjunto de datos CYGstars es que es bivariado (por lo tanto, podemos usar inspección visual para confirmar el resultado del ajuste robusto) y que en realidad hay una buena explicación de por qué estas cuatro observaciones a la izquierda son tan anormales.
Esta es, por cierto, la excepción más que la regla: excepto en pequeños estudios piloto que involucran muestras pequeñas y pocas variables y donde la persona que realiza el análisis estadístico también participó en el proceso de recopilación de datos, nunca he experimentado un caso en el que las creencias previas sobre La identidad de los valores atípicos era realmente cierta. Por cierto, esto es silencioso y fácil de verificar. Independientemente de si los valores atípicos se han identificado utilizando un algoritmo de detección de valores atípicos o la intuición del investigador, los valores atípicos son, por definición, observaciones que tienen una influencia anormal (o `` atracción '') sobre los coeficientes obtenidos de un ajuste LS. En otras palabras, los valores atípicos son observaciones cuya eliminación de la muestra debería afectar severamente el ajuste LS.
Aunque nunca he experimentado esto personalmente, hay algunos casos bien documentados en la literatura donde las observaciones marcadas como atípicas por un algoritmo de detección de valores atípicos fueron descubiertas posteriormente como errores graves o generados por un proceso diferente. En cualquier caso, no está científicamente justificado ni es sabio eliminar solo los valores atípicos si de alguna manera se pueden entender o explicar. Si una pequeña camarilla de observaciones está tan alejada del cuerpo principal de los datos que puede extraer por sí sola los resultados de un procedimiento estadístico por sí misma, es prudente (y podría agregar natural) tratarla aparte, independientemente de si No es que estos puntos de datos sean sospechosos por otros motivos.
(1): ver Stephen M. Stigler, La historia de la estadística: la medición de la incertidumbre antes de 1900.
(2): Computación de la regresión LTS para grandes conjuntos de datos (2006) PJ Rousseeuw, K. van Driessen.
(3): Métodos robustos multivariados de alto desglose (2008). Hubert M., Rousseeuw PJ y Van Aelst S. Fuente: Statist. Sci. Volumen 23, 92-119.
fuente
En general, desconfío de eliminar los "valores atípicos". El análisis de regresión puede aplicarse correctamente en presencia de errores no distribuidos normalmente, errores que exhiben heterocedasticidad o valores de los predictores / variables independientes que están "lejos" del resto. El verdadero problema con los valores atípicos es que no siguen el modelo lineal que sigue cualquier otro punto de datos. ¿Cómo saber si este es el caso? Usted no
En todo caso, no desea buscar valores de sus variables que sean atípicos; en su lugar, desea buscar valores de sus residuos que sean atípicos. Mira estos puntos de datos. ¿Se registran sus variables correctamente? ¿Hay alguna razón por la que no seguirían el mismo modelo que el resto de sus datos?
Por supuesto, la razón por la cual estas observaciones pueden aparecer como valores atípicos (según el diagnóstico residual) podría deberse a que su modelo está equivocado. Tengo un profesor al que le gustaba decir que, si desecháramos valores atípicos, aún creeríamos que los planetas giran alrededor del sol en círculos perfectos. Kepler podría haber tirado a Marte y la historia de la órbita circular se habría visto bastante bien. Marte proporcionó la idea clave de que este modelo era incorrecto y se habría perdido este resultado si hubiera ignorado ese planeta.
Usted mencionó que eliminar los valores atípicos no cambia mucho sus resultados. Esto se debe a que solo tiene un número muy pequeño de observaciones que eliminó en relación con su muestra o que son razonablemente consistentes con su modelo. Esto podría sugerir que, si bien las variables mismas pueden verse diferentes al resto, sus residuos no son tan sobresalientes. Los dejaría y no trataría de justificar mi decisión de eliminar algunos puntos a mis críticos.
fuente
+1 a @Charlie y @PeterFlom; estás obteniendo buena información allí. Quizás pueda hacer una pequeña contribución aquí desafiando la premisa de la pregunta. Un diagrama de caja típicamente (el software puede variar, y no estoy seguro de lo que está haciendo SPSS), la etiqueta señala más de 1.5 veces el Inter-Quartile Range por encima (debajo) del tercer (primer) cuartil como 'valores atípicos'. Sin embargo, podemos preguntar con qué frecuencia deberíamos esperar encontrar al menos uno de esos puntos cuando sabemos con certeza que todos los puntos provienen de la misma distribución. Una simulación simple puede ayudarnos a responder esta pregunta:
Lo que esto demuestra es que se puede esperar que tales puntos ocurran comúnmente (> 50% del tiempo) con muestras de tamaño 100, incluso cuando nada está mal. Como sugiere la última oración, la probabilidad de encontrar un falso 'atípico' a través de la estrategia de diagrama de caja dependerá del tamaño de la muestra:
Existen otras estrategias para identificar automáticamente los valores atípicos, pero cualquier método de este tipo a veces identificará erróneamente los puntos válidos como 'valores atípicos' y, a veces, identificará erróneamente los valores atípicos verdaderos como 'puntos válidos'. (Puede pensar en estos como errores de tipo I y tipo II ). Mi pensamiento sobre este tema (por lo que vale) es centrarse en los efectos de incluir / excluir los puntos en cuestión. Si su objetivo es la predicción, puede usar la validación cruzada para determinar si, o cuánto, incluyendo los puntos en cuestión, aumenta el error cuadrático medio de predicción . Si su objetivo es la explicación, puede mirar dfBeta(es decir, observe cuánto cambian las estimaciones beta de su modelo dependiendo de si los puntos en cuestión están incluidos o no). Otra perspectiva (posiblemente la mejor) es evitar tener que elegir si se deben desechar los puntos aberrantes, y simplemente usar análisis sólidos en su lugar.
fuente
Primero debe mirar las gráficas de los residuos: ¿Siguen (aproximadamente) una distribución normal? ¿Muestran signos de heterocedasticidad? Mire también otras tramas (no uso SPSS, así que no puedo decir exactamente cómo hacer esto en ese programa, ni qué diagramas de caja está viendo; sin embargo, es difícil imaginar que los asteriscos significan "no tan mal", probablemente significan que estos son puntos muy inusuales por algún criterio).
Luego, si tiene valores atípicos, mírelos e intente averiguar por qué.
Luego puede probar la regresión con y sin los valores atípicos. Si los resultados son similares, la vida es buena. Informe los resultados completos con una nota al pie. Si no es similar, entonces debes explicar ambas regresiones.
fuente