Muchas veces un analista estadístico recibe un conjunto de datos y se le pide que se ajuste a un modelo utilizando una técnica como la regresión lineal. Con mucha frecuencia, el conjunto de datos va acompañado de una exención de responsabilidad similar a "Oh, sí, nos equivocamos al recopilar algunos de estos puntos de datos: haga lo que pueda".
Esta situación conduce a ajustes de regresión que se ven fuertemente afectados por la presencia de valores atípicos que pueden ser datos erróneos. Dado lo siguiente:
Es peligroso tanto desde el punto de vista científico como moral arrojar datos sin otra razón que "hace que el ajuste se vea mal".
En la vida real, las personas que recopilaron los datos con frecuencia no están disponibles para responder preguntas como "al generar este conjunto de datos, ¿cuál de los puntos confundió exactamente?"
¿Qué pruebas estadísticas o reglas generales se pueden utilizar como base para excluir los valores atípicos en el análisis de regresión lineal?
¿Hay alguna consideración especial para la regresión multilineal?
fuente
Respuestas:
En lugar de excluir los valores atípicos, puede usar un método robusto de regresión. En R, por ejemplo, la
rlm()
función del paquete MASS se puede usar en lugar de lalm()
función. El método de estimación puede ajustarse para que sea más o menos robusto a los valores atípicos.fuente
A veces, los valores atípicos son datos incorrectos y deben excluirse, como los errores tipográficos. A veces son Wayne Gretzky o Michael Jordan, y deben mantenerse.
Los métodos de detección de valores atípicos incluyen:
Univariante -> diagrama de caja. fuera de 1,5 veces el rango intercuartil es un valor atípico.
Bivariado -> diagrama de dispersión con elipse de confianza. fuera de, digamos, un 95% de elipse de confianza es un valor atípico.
Multivariante -> Distancia Mahalanobis D2
Marque esas observaciones como valores atípicos.
Ejecute una regresión logística (en Y = IsOutlier) para ver si hay algún patrón sistemático.
Elimine los que pueda demostrar que no son representativos de ninguna subpoblación.
fuente
Creo que hay algo que decir para excluir los valores atípicos. Se supone que una línea de regresión resume los datos. Debido al apalancamiento, puede tener una situación en la que el 1% de sus puntos de datos afecta la pendiente en un 50%.
Solo es peligroso desde un punto de vista moral y científico si no le dice a nadie que excluyó los valores atípicos. Mientras los señales, puedes decir:
"Esta línea de regresión se ajusta bastante bien a la mayoría de los datos. El 1% de las veces aparecerá un valor que no se ajusta a esta tendencia, pero bueno, es un mundo loco, ningún sistema es perfecto".
fuente
Marcador, rotulador,
Tomando su pregunta literalmente, diría que no hay pruebas estadísticas o reglas generales que puedan usarse como base para excluir valores atípicos en el análisis de regresión lineal (en lugar de determinar si una observación dada es o no atípica). Esto debe provenir del conocimiento del área temática.
Creo que la mejor manera de comenzar es preguntar si los valores atípicos tienen sentido, especialmente teniendo en cuenta las otras variables que ha recopilado. Por ejemplo, ¿es realmente razonable que tenga una mujer de 600 libras en su estudio, que reclutó de varias clínicas de lesiones deportivas? O, ¿no es extraño que una persona tenga 55 años o experiencia profesional cuando solo tiene 60 años? Etcétera. Con suerte, entonces tendrá una base razonable para descartarlos o hacer que los compiladores de datos verifiquen dos veces los registros por usted.
También sugeriría métodos de regresión robustos y el informe transparente de observaciones descartadas, como lo sugirieron Rob y Chris respectivamente.
Espero que esto ayude, Brenden
fuente
He publicado un método para identificar valores atípicos en regresión no lineal, y también se puede usar al ajustar un modelo lineal.
HJ Motulsky y RE Brown. Detección de valores atípicos al ajustar datos con regresión no lineal: un nuevo método basado en una regresión no lineal robusta y la tasa de descubrimiento falso . BMC Bioinformatics 2006, 7: 123
fuente
Hay dos medidas de distancia estadística que se enfocan específicamente en detectar valores atípicos y luego considerar si tales valores atípicos deben eliminarse de su regresión lineal.
El primero es la distancia de Cook. Puede encontrar una muy buena explicación en Wikipedia: http://en.wikipedia.org/wiki/Cook%27s_distance .
Cuanto mayor es la distancia de Cook, más influyente (impacto en el coeficiente de regresión) es la observación. El punto de corte típico para considerar eliminar la observación es la distancia de Cook = 4 / n (n es el tamaño de la muestra).
El segundo es DFFITS, que también está bien cubierto por Wikipedia: http://en.wikipedia.org/wiki/DFFITS . El punto de corte típico para considerar eliminar una observación es un valor DFFITS de 2 veces sqrt (k / n) donde k es el número de variables y n es el tamaño de la muestra.
Ambas medidas generalmente le dan resultados similares que conducen a una selección de observación similar.
fuente
Basura dentro basura fuera....
Implícito en obtener el beneficio completo de la regresión lineal es que el ruido sigue una distribución normal. Idealmente, tiene principalmente datos y un poco de ruido ... no principalmente ruido y un poco de datos. Puede comprobar la normalidad de los residuos después del ajuste lineal observando los residuos. También puede filtrar los datos de entrada antes del ajuste lineal para errores evidentes y evidentes.
Estos son algunos tipos de ruido en los datos de entrada de basura que normalmente no se ajustan a una distribución normal:
Escribir una especificación de lo que son "datos válidos" para cada columna puede ayudarlo a etiquetar datos no válidos. Por ejemplo, la altura de una persona en cm debe estar en un rango, por ejemplo, 100-300 cm. Si encuentra 1.8 para la altura, eso es un error tipográfico, y si bien puede suponer que era 1.8 my modificarlo a 180, diría que generalmente es más seguro tirarlo y es mejor documentar la mayor cantidad de filtrado posible.
fuente
Para una regresión lineal, puede usar un ajuste de línea recta mediana repetido.
fuente
Pruebas estadísticas que se utilizarán como base para la exclusión: - residuos estandarizados - estadísticas de apalancamiento - Distancia de Cook, que es una combinación de los dos anteriores.
Por experiencia, la exclusión debe limitarse a instancias de entrada de datos incorrecta. Volver a ponderar valores atípicos en el modelo de regresión lineal es un muy buen método de compromiso. La aplicación de esto en R es ofrecida por Rob. Un gran ejemplo está aquí: http://www.ats.ucla.edu/stat/r/dae/rreg.htm
Si es necesaria la exclusión, 'una regla general' se relaciona con las estadísticas de Dfbeta (las medidas cambian en la estimación cuando se elimina el valor atípico), de modo que si el valor absoluto de la estadística DfBeta excede 2 / sqrt (n), eso confirma la eliminación de El valor atípico.
fuente