¿Cómo deben abordarse los valores atípicos en el análisis de regresión lineal?

73

Muchas veces un analista estadístico recibe un conjunto de datos y se le pide que se ajuste a un modelo utilizando una técnica como la regresión lineal. Con mucha frecuencia, el conjunto de datos va acompañado de una exención de responsabilidad similar a "Oh, sí, nos equivocamos al recopilar algunos de estos puntos de datos: haga lo que pueda".

Esta situación conduce a ajustes de regresión que se ven fuertemente afectados por la presencia de valores atípicos que pueden ser datos erróneos. Dado lo siguiente:

  • Es peligroso tanto desde el punto de vista científico como moral arrojar datos sin otra razón que "hace que el ajuste se vea mal".

  • En la vida real, las personas que recopilaron los datos con frecuencia no están disponibles para responder preguntas como "al generar este conjunto de datos, ¿cuál de los puntos confundió exactamente?"

¿Qué pruebas estadísticas o reglas generales se pueden utilizar como base para excluir los valores atípicos en el análisis de regresión lineal?

¿Hay alguna consideración especial para la regresión multilineal?

marcador, rotulador
fuente
Relacionado: posible engaño de esto: stats.stackexchange.com/questions/37865/… | R howto
Ciro Santilli 新疆 改造 中心 法轮功 六四 事件

Respuestas:

33

En lugar de excluir los valores atípicos, puede usar un método robusto de regresión. En R, por ejemplo, la rlm()función del paquete MASS se puede usar en lugar de la lm()función. El método de estimación puede ajustarse para que sea más o menos robusto a los valores atípicos.

Rob Hyndman
fuente
Si uso la función rlm (), veo que se producen los coeficientes y sus pruebas t. Pero, ¿cómo puedo obtener la prueba f, los valores de R cuadrado desde aquí? Supongo que no puedo simplemente traer estos valores de f-test y R al cuadrado de los simples resultados de resumen 'lm' si estoy en lo correcto.
Eric
1
Para una regresión robusta, los supuestos detrás de una prueba F ya no se cumplen, y R ^ 2 se puede definir de varias maneras que ya no son equivalentes. Ver stats.idre.ucla.edu/stata/faq/… para una discusión sobre esto para Stata.
Rob Hyndman
Ver también stats.stackexchange.com/a/68367/159
Rob Hyndman
Pero encuentro el comando llamado f.robftest del paquete sfsmisc que da el resultado de la prueba f. ¿Puedo usar este resultado para definir las estadísticas de prueba f para rlm? Además, parece que obtengo R cuadrado simplemente ingresando los valores en la fórmula matemática R cuadrado como 1 - sum (residuales (rlm (y ~ x)) ^ 2) / sum ((y-mean (y)) ^ 2) . Para que los valores de la prueba t verifiquen la importancia de los coeficientes, obtengo los valores de la prueba t del resumen (rlm (y ~ x)) que comparo con los valores t de niveles de confianza del 95% más o menos. ¿Puedo usar estos métodos?
Eric
22

A veces, los valores atípicos son datos incorrectos y deben excluirse, como los errores tipográficos. A veces son Wayne Gretzky o Michael Jordan, y deben mantenerse.

Los métodos de detección de valores atípicos incluyen:

Univariante -> diagrama de caja. fuera de 1,5 veces el rango intercuartil es un valor atípico.

Bivariado -> diagrama de dispersión con elipse de confianza. fuera de, digamos, un 95% de elipse de confianza es un valor atípico.

Multivariante -> Distancia Mahalanobis D2

Marque esas observaciones como valores atípicos.

Ejecute una regresión logística (en Y = IsOutlier) para ver si hay algún patrón sistemático.

Elimine los que pueda demostrar que no son representativos de ninguna subpoblación.

Neil McGuigan
fuente
Y si todavía tiene valores atípicos, considere usar un modelo diferente al lineal. Por ejemplo, si usa un modelo con comportamiento de ley de poder, Michael Jordan ya no es un caso atípico (en términos de la capacidad del modelo para acomodarlo).
drevicko
1
Estoy de acuerdo con la mayoría de lo que se dice aquí, pero me gustaría agregar la advertencia adicional de que " fuera de 1,5 veces el rango intercuartil es un valor atípico " es una convención , no una regla con ningún fundamento teórico. No debe usarse como justificación para excluir puntos de datos.
mkt - Restablecer Monica
20

Creo que hay algo que decir para excluir los valores atípicos. Se supone que una línea de regresión resume los datos. Debido al apalancamiento, puede tener una situación en la que el 1% de sus puntos de datos afecta la pendiente en un 50%.

Solo es peligroso desde un punto de vista moral y científico si no le dice a nadie que excluyó los valores atípicos. Mientras los señales, puedes decir:

"Esta línea de regresión se ajusta bastante bien a la mayoría de los datos. El 1% de las veces aparecerá un valor que no se ajusta a esta tendencia, pero bueno, es un mundo loco, ningún sistema es perfecto".

Chris Beeley
fuente
1
"oye, es un mundo loco, ningún sistema es perfecto" ¡+1 por eso mi amigo! :)
bartektartanus
1
Sin embargo, considere otros modelos. El mundo está lleno de "valores atípicos" eliminados que eran datos reales, lo que resulta en no poder predecir algo realmente importante. Muchos procesos naturales tienen un comportamiento similar a la ley de poder con eventos extremos raros. Puede parecer que los modelos lineales se ajustan a dichos datos (aunque no demasiado bien), pero usar uno y eliminar los "valores atípicos" significa que se pierden esos eventos extremos, que generalmente es importante conocer.
drevicko
10

Marcador, rotulador,

Tomando su pregunta literalmente, diría que no hay pruebas estadísticas o reglas generales que puedan usarse como base para excluir valores atípicos en el análisis de regresión lineal (en lugar de determinar si una observación dada es o no atípica). Esto debe provenir del conocimiento del área temática.

Creo que la mejor manera de comenzar es preguntar si los valores atípicos tienen sentido, especialmente teniendo en cuenta las otras variables que ha recopilado. Por ejemplo, ¿es realmente razonable que tenga una mujer de 600 libras en su estudio, que reclutó de varias clínicas de lesiones deportivas? O, ¿no es extraño que una persona tenga 55 años o experiencia profesional cuando solo tiene 60 años? Etcétera. Con suerte, entonces tendrá una base razonable para descartarlos o hacer que los compiladores de datos verifiquen dos veces los registros por usted.

También sugeriría métodos de regresión robustos y el informe transparente de observaciones descartadas, como lo sugirieron Rob y Chris respectivamente.

Espero que esto ayude, Brenden

Brenden
fuente
5

Hay dos medidas de distancia estadística que se enfocan específicamente en detectar valores atípicos y luego considerar si tales valores atípicos deben eliminarse de su regresión lineal.

El primero es la distancia de Cook. Puede encontrar una muy buena explicación en Wikipedia: http://en.wikipedia.org/wiki/Cook%27s_distance .

Cuanto mayor es la distancia de Cook, más influyente (impacto en el coeficiente de regresión) es la observación. El punto de corte típico para considerar eliminar la observación es la distancia de Cook = 4 / n (n es el tamaño de la muestra).

El segundo es DFFITS, que también está bien cubierto por Wikipedia: http://en.wikipedia.org/wiki/DFFITS . El punto de corte típico para considerar eliminar una observación es un valor DFFITS de 2 veces sqrt (k / n) donde k es el número de variables y n es el tamaño de la muestra.

Ambas medidas generalmente le dan resultados similares que conducen a una selección de observación similar.

Sympa
fuente
3

Basura dentro basura fuera....

Implícito en obtener el beneficio completo de la regresión lineal es que el ruido sigue una distribución normal. Idealmente, tiene principalmente datos y un poco de ruido ... no principalmente ruido y un poco de datos. Puede comprobar la normalidad de los residuos después del ajuste lineal observando los residuos. También puede filtrar los datos de entrada antes del ajuste lineal para errores evidentes y evidentes.

Estos son algunos tipos de ruido en los datos de entrada de basura que normalmente no se ajustan a una distribución normal:

  • Faltan dígitos o se agregan con datos ingresados ​​a mano (desactivados por un factor de 10 o más)
  • Unidades erróneas o convertidas incorrectamente (gramos frente a kilos frente a libras; metros, pies, millas, km), posiblemente por la fusión de múltiples conjuntos de datos (Nota: se pensó que el Orbitador de Marte se había perdido de esta manera, por lo que incluso los científicos de cohetes de la NASA pueden hacer esto Error)
  • El uso de códigos como 0, -1, -99999 o 99999 para significar algo no numérico como "no aplicable" o "columna no disponible" y simplemente volcar esto en un modelo lineal junto con datos válidos

Escribir una especificación de lo que son "datos válidos" para cada columna puede ayudarlo a etiquetar datos no válidos. Por ejemplo, la altura de una persona en cm debe estar en un rango, por ejemplo, 100-300 cm. Si encuentra 1.8 para la altura, eso es un error tipográfico, y si bien puede suponer que era 1.8 my modificarlo a 180, diría que generalmente es más seguro tirarlo y es mejor documentar la mayor cantidad de filtrado posible.

Pablo
fuente
1

Para una regresión lineal, puede usar un ajuste de línea recta mediana repetido.

lector de babelproof
fuente
0

Pruebas estadísticas que se utilizarán como base para la exclusión: - residuos estandarizados - estadísticas de apalancamiento - Distancia de Cook, que es una combinación de los dos anteriores.

Por experiencia, la exclusión debe limitarse a instancias de entrada de datos incorrecta. Volver a ponderar valores atípicos en el modelo de regresión lineal es un muy buen método de compromiso. La aplicación de esto en R es ofrecida por Rob. Un gran ejemplo está aquí: http://www.ats.ucla.edu/stat/r/dae/rreg.htm

Si es necesaria la exclusión, 'una regla general' se relaciona con las estadísticas de Dfbeta (las medidas cambian en la estimación cuando se elimina el valor atípico), de modo que si el valor absoluto de la estadística DfBeta excede 2 / sqrt (n), eso confirma la eliminación de El valor atípico.

mkrasmus
fuente