Ya sea para eliminar casos que están marcados como valores atípicos por el software estadístico al realizar una regresión múltiple?

23

Estoy realizando análisis de regresión múltiple y no estoy seguro de si se deben eliminar los valores atípicos en mis datos. Los datos que me preocupan aparecen como "círculos" en los diagramas de caja de SPSS, sin embargo, no hay asteriscos (lo que me hace pensar que no son "tan malos"). Los casos que me preocupan aparecen en la tabla de "diagnósticos por caso" en la salida. Por lo tanto, ¿debería eliminar estos casos?

Luego
fuente
Muchas gracias Charlie y Epigrad. ¿Podría sugerir qué gráfico en SPSS miro para evaluar si hay valores atípicos en los residuos? ¡El diagrama de dispersión se ve bastante desordenado! No creo que haya ningún problema con los datos como tales (ya que no se han ingresado incorrectamente) Solo creo que algunos de mis participantes tuvieron puntajes mucho más altos en algunas de mis escalas, es decir, porque estaban mucho más ansiosos socialmente que El resto de la muestra.
Anon
3
Debe trazar el valor predicho de y (el dado según el modelo que estima) en el eje xy los residuos en el eje y. En lugar del valor predicho de y, podría colocar uno de sus predictores / variables independientes en el eje x. Podría crear varias parcelas, cada una con un predictor diferente en el eje x para ver qué valor x conduce al comportamiento atípico. Nuevamente, advertiría contra la eliminación de valores atípicos; en cambio, analice por qué está ocurriendo el valor atípico.
Charlie
1
Haciéndose eco de la declaración de Charlie, es el "por qué" lo que importa, en lugar del "si", y yo también advertiría contra su eliminación. No estoy familiarizado con SPSS, pero cualquiera de las características que utilizó para ejecutar la regresión también debería ser capaz de proporcionarle una gráfica de los residuos, o al menos el valor de ellos que puede usar para hacer la gráfica que Charlie sugiere.
Fomite
@ Annon He fusionado tus dos cuentas. Regístrese para poder actualizar y / o comentar su pregunta.
chl
3
@ user603 No, no me lees correctamente. "Outlier" no significa nada, especialmente cuando se marca mediante un procedimiento automático en software estadístico. Hay muchos ejemplos de los hallazgos importantes de un estudio que se encuentra en los "valores atípicos". Siempre que tenga datos que esté eliminando, debería ser por una razón. "Son inconvenientes" no es una razón.
Fomite

Respuestas:

25

Marcar valores atípicos no es una decisión judicial (o, en cualquier caso, no tiene por qué serlo). Dado un modelo estadístico, los valores atípicos tienen una definición precisa y objetiva: son observaciones que no siguen el patrón de la mayoría de los datos. Dichas observaciones deben separarse al inicio de cualquier análisis simplemente porque su distancia del grueso de los datos garantiza que ejercerán una atracción desproporcionada en cualquier modelo multivariable ajustado por la máxima probabilidad (o incluso cualquier otra función de pérdida convexa).

Es importante señalar que multivariable valor atípico s puede simplemente no ser detectado de forma fiable utilizando residuos de un ajuste de mínimos cuadrados (o cualquier otro modelo estimado por ML, o cualquier otra función de pérdida convexa). En pocas palabras, los valores atípicos multivariables solo pueden detectarse de manera confiable usando sus residuos de un modelo ajustado usando un procedimiento de estimación que no es susceptible de ser influenciado por ellos.

La creencia de que los valores atípicos necesariamente se destacarán en los residuos de un ajuste clásico se ubica en algún lugar con otros no-estadísticos difíciles de desacreditar, como interpretar los valores p como medida de evidencia o hacer inferencia en una población de una muestra sesgada. Excepto quizás que este podría ser mucho más antiguo: el propio Gauss recomendó el uso de estimadores robustos como la mediana y la locura (en lugar de la media clásica y las desviaciones estándar) para estimar los parámetros de una distribución normal a partir de observaciones ruidosas (incluso yendo en cuanto a derivar el factor de consistencia del loco (1)).

Para dar un ejemplo visual simple basado en datos reales, considere los datos infames de la estrella CYG . La línea roja aquí representa el ajuste de menor cuadrado, la línea azul que obtuvo el ajuste usando un ajuste de regresión lineal robusto. El ajuste robusto aquí es el ajuste FastLTS (2), una alternativa al ajuste LS que se puede usar para detectar valores atípicos (porque utiliza un procedimiento de estimación que garantiza que la influencia de cualquier observación sobre el coeficiente estimado esté limitada). El código R para reproducirlo es:

library(robustbase)
data(starsCYG)
plot(starsCYG)
lm.stars <- lm(log.light ~ log.Te, data = starsCYG)
abline(lm.stars$coef,col="red",lwd=2)
lts.stars <- ltsReg(log.light ~ log.Te, data = starsCYG)
abline(lts.stars$coef,col="blue",lwd=2)

datos de starsCYG

Curiosamente, las 4 observaciones externas a la izquierda ni siquiera tienen los residuos más grandes con respecto al ajuste LS y el gráfico QQ de los residuos del ajuste LS (o cualquiera de las herramientas de diagnóstico derivadas de ellos, como la distancia de Cook o el dfbeta) no muestra ninguno de ellos como problemático. Esta es realmente la norma: no se necesitan más de dos valores atípicos (independientemente del tamaño de la muestra) para obtener las estimaciones de LS de tal manera que los valores atípicos no se destaquen en un gráfico residual. Esto se llama efecto de enmascaramientoy está bien documentado Quizás lo único notable sobre el conjunto de datos CYGstars es que es bivariado (por lo tanto, podemos usar inspección visual para confirmar el resultado del ajuste robusto) y que en realidad hay una buena explicación de por qué estas cuatro observaciones a la izquierda son tan anormales.

Esta es, por cierto, la excepción más que la regla: excepto en pequeños estudios piloto que involucran muestras pequeñas y pocas variables y donde la persona que realiza el análisis estadístico también participó en el proceso de recopilación de datos, nunca he experimentado un caso en el que las creencias previas sobre La identidad de los valores atípicos era realmente cierta. Por cierto, esto es silencioso y fácil de verificar. Independientemente de si los valores atípicos se han identificado utilizando un algoritmo de detección de valores atípicos o la intuición del investigador, los valores atípicos son, por definición, observaciones que tienen una influencia anormal (o `` atracción '') sobre los coeficientes obtenidos de un ajuste LS. En otras palabras, los valores atípicos son observaciones cuya eliminación de la muestra debería afectar severamente el ajuste LS.

Aunque nunca he experimentado esto personalmente, hay algunos casos bien documentados en la literatura donde las observaciones marcadas como atípicas por un algoritmo de detección de valores atípicos fueron descubiertas posteriormente como errores graves o generados por un proceso diferente. En cualquier caso, no está científicamente justificado ni es sabio eliminar solo los valores atípicos si de alguna manera se pueden entender o explicar. Si una pequeña camarilla de observaciones está tan alejada del cuerpo principal de los datos que puede extraer por sí sola los resultados de un procedimiento estadístico por sí misma, es prudente (y podría agregar natural) tratarla aparte, independientemente de si No es que estos puntos de datos sean sospechosos por otros motivos.

(1): ver Stephen M. Stigler, La historia de la estadística: la medición de la incertidumbre antes de 1900.

(2): Computación de la regresión LTS para grandes conjuntos de datos (2006) PJ Rousseeuw, K. van Driessen.

(3): Métodos robustos multivariados de alto desglose (2008). Hubert M., Rousseeuw PJ y Van Aelst S. Fuente: Statist. Sci. Volumen 23, 92-119.

usuario603
fuente
66
Esto es bueno (+1). Sin embargo, creo que hace un mal uso de la terminología convencional y ha optado por "atípico" para referirse a "observación influyente". Los conceptos son valiosos, y aquí se trata bien a este último, pero no son tan intercambiables como parece indicar. Por ejemplo, una observación influyente que sea consistente con la mayoría de los datos se ajustaría a su caracterización de "observaciones que tienen un apalancamiento anormal (o 'pull') sobre los coeficientes obtenidos de un ajuste LS" pero que no serían consideradas por la mayoría de los escritores ser un "valor atípico" per se.
whuber
2
@whuber: Buen punto. De hecho, considero, al igual que los libros de texto recientes sobre estadísticas robustas (por ejemplo, Robust Statistics: Theory and Methods. Wiley), tales observaciones (llamadas "buenos puntos de apalancamiento") como dañinas. La justificación es que desinflan el error estándar de los coeficientes estimados, lo que hace que el usuario deposite una confianza injustificada en la fuerza de la relación observada. Considerar los buenos puntos de apalancamiento como valores atípicos también hace que el enfoque formal sea más consistente: después de todo, los buenos puntos de apalancamiento tienen una influencia descomunal en el conjunto, que son componentes del ajuste LS / ML.
usuario603
3
+1 Muy buen ejemplo. Datos reales que muestran dos ajustes que son casi ortogonales, y en los que los cuatro altamente influyentes en la esquina superior izquierda no tendrán los residuos más grandes después de un ajuste OLS.
Wayne
19

En general, desconfío de eliminar los "valores atípicos". El análisis de regresión puede aplicarse correctamente en presencia de errores no distribuidos normalmente, errores que exhiben heterocedasticidad o valores de los predictores / variables independientes que están "lejos" del resto. El verdadero problema con los valores atípicos es que no siguen el modelo lineal que sigue cualquier otro punto de datos. ¿Cómo saber si este es el caso? Usted no

En todo caso, no desea buscar valores de sus variables que sean atípicos; en su lugar, desea buscar valores de sus residuos que sean atípicos. Mira estos puntos de datos. ¿Se registran sus variables correctamente? ¿Hay alguna razón por la que no seguirían el mismo modelo que el resto de sus datos?

Por supuesto, la razón por la cual estas observaciones pueden aparecer como valores atípicos (según el diagnóstico residual) podría deberse a que su modelo está equivocado. Tengo un profesor al que le gustaba decir que, si desecháramos valores atípicos, aún creeríamos que los planetas giran alrededor del sol en círculos perfectos. Kepler podría haber tirado a Marte y la historia de la órbita circular se habría visto bastante bien. Marte proporcionó la idea clave de que este modelo era incorrecto y se habría perdido este resultado si hubiera ignorado ese planeta.

Usted mencionó que eliminar los valores atípicos no cambia mucho sus resultados. Esto se debe a que solo tiene un número muy pequeño de observaciones que eliminó en relación con su muestra o que son razonablemente consistentes con su modelo. Esto podría sugerir que, si bien las variables mismas pueden verse diferentes al resto, sus residuos no son tan sobresalientes. Los dejaría y no trataría de justificar mi decisión de eliminar algunos puntos a mis críticos.

Charlie
fuente
66
+1 No deseche datos porque es un valor atípico. Descubra por qué algunos datos son periféricos.
Fomite
2
Este es un consejo terrible. Es muy común que los valores atípicos estén tan lejos del resto de los datos como para tirar de la línea de regresión hacia ellos de tal manera que no se destaquen en un gráfico residual (o peor: produzcan grandes residuos para el genuino puntos de datos). De hecho, se puede demostrar que tan pronto como tenga más de un valor atípico, no se puede detectar de manera confiable utilizando un gráfico residual de una regresión clásica. Esto se llama el efecto de enmascaramiento y lo documenté notablemente en muchos ejemplos de datos reales.
usuario603
Por cierto, esta es también la razón por la que evitaría usar el ejemplo de Marte: ilustra un procedimiento que solo funciona si se trata de un caso atípico. En la mayoría de las aplicaciones no hay tal garantía. Da una sensación errónea de confianza en una metodología generalmente defectuosa (que como estadístico es realmente lo que debemos prosperar para evitar).
user603
15

+1 a @Charlie y @PeterFlom; estás obteniendo buena información allí. Quizás pueda hacer una pequeña contribución aquí desafiando la premisa de la pregunta. Un diagrama de caja típicamente (el software puede variar, y no estoy seguro de lo que está haciendo SPSS), la etiqueta señala más de 1.5 veces el Inter-Quartile Range por encima (debajo) del tercer (primer) cuartil como 'valores atípicos'. Sin embargo, podemos preguntar con qué frecuencia deberíamos esperar encontrar al menos uno de esos puntos cuando sabemos con certeza que todos los puntos provienen de la misma distribución. Una simulación simple puede ayudarnos a responder esta pregunta:

set.seed(999)                                     # this makes the sim reproducable

outVector = vector(length=10000)                  # to store the results
N = 100                                           # amount of data per sample

for(i in 1:10000){                                # repeating 10k times
  X = rnorm(N)                                    # draw normal sample
  bp = boxplot(X, plot=FALSE)                     # make boxplot
  outVector[i] = ifelse(length(bp$out)!=0, 1, 0)  # if there are 'outliers', 1, else 0
}

mean(outVector)                                   # the % of cases w/ >0 'outliers'
[1] 0.5209

Lo que esto demuestra es que se puede esperar que tales puntos ocurran comúnmente (> 50% del tiempo) con muestras de tamaño 100, incluso cuando nada está mal. Como sugiere la última oración, la probabilidad de encontrar un falso 'atípico' a través de la estrategia de diagrama de caja dependerá del tamaño de la muestra:

   N    probability
  10    [1] 0.2030
  50    [1] 0.3639
 100    [1] 0.5209
 500    [1] 0.9526
1000    [1] 0.9974

Existen otras estrategias para identificar automáticamente los valores atípicos, pero cualquier método de este tipo a veces identificará erróneamente los puntos válidos como 'valores atípicos' y, a veces, identificará erróneamente los valores atípicos verdaderos como 'puntos válidos'. (Puede pensar en estos como errores de tipo I y tipo II ). Mi pensamiento sobre este tema (por lo que vale) es centrarse en los efectos de incluir / excluir los puntos en cuestión. Si su objetivo es la predicción, puede usar la validación cruzada para determinar si, o cuánto, incluyendo los puntos en cuestión, aumenta el error cuadrático medio de predicción . Si su objetivo es la explicación, puede mirar dfBeta(es decir, observe cuánto cambian las estimaciones beta de su modelo dependiendo de si los puntos en cuestión están incluidos o no). Otra perspectiva (posiblemente la mejor) es evitar tener que elegir si se deben desechar los puntos aberrantes, y simplemente usar análisis sólidos en su lugar.

gung - Restablece a Monica
fuente
Los procedimientos que recomienda solo funcionan de manera confiable si hay como máximo un valor atípico (independientemente del tamaño de su conjunto de datos), lo cual es una suposición poco realista. Tukey calibró la regla del bigote para excluir aproximadamente el 1% de las observaciones en cada extremo si los datos se extraen de una distribución gaussiana. Sus simulaciones lo confirman. La opinión de Tukey fue que las pérdidas causadas por no tener en cuenta una porción tan pequeña de los datos en aquellos casos en que las observaciones se comportan bien son irrelevantes para todas las preocupaciones prácticas. Especialmente en lo que respecta a los beneficios en los casos en que los datos no lo son.
usuario603
2
Gracias por tu comentario, @ user603; Esa es una posición que invita a la reflexión. ¿A qué procedimientos le recomiendo objetar: usar, por ejemplo, dfbeta para detectar posibles valores atípicos, o usar análisis robustos (prototípicamente bisquare de Tukey como una función de pérdida alternativa) como protección contra su influencia en lugar de elegir qué puntos de datos desechar?
gung - Restablece a Monica
gracias por señalar la falta de claridad en mi comentario (estaba limitado por el límite de longitud). Por supuesto, me refiero específicamente a los primeros: dfbeta y validación cruzada (este último es problemático solo si las observaciones utilizadas para realizar la validación cruzada se extraen aleatoriamente de la muestra original. Un ejemplo de caso en el que podría usarse la validación cruzada estar en el llamado entorno de control de calidad donde las observaciones utilizadas para las pruebas se extraen de una muestra temporalmente disjunta).
user603
Gracias por aclarar, @ user603. Tendré que jugar con estas ideas para comprenderlas más a fondo. Mi intuición es que sería bastante difícil no notar valores atípicos que están distorsionando sus resultados; parece que debería tener valores atípicos que distorsionen sus resultados en ambos lados por igual, en cuyo caso sus betas terminarían siendo aproximadamente imparciales y sus resultados serían simplemente menos 'significativos'.
gung - Restablece a Monica
1
Mi intuición es que sería bastante difícil no notar valores atípicos que están distorsionando sus resultados, pero desafortunadamente, el hecho es que no es así. También mire el ejemplo que proporciono en mi respuesta.
usuario603
12

Primero debe mirar las gráficas de los residuos: ¿Siguen (aproximadamente) una distribución normal? ¿Muestran signos de heterocedasticidad? Mire también otras tramas (no uso SPSS, así que no puedo decir exactamente cómo hacer esto en ese programa, ni qué diagramas de caja está viendo; sin embargo, es difícil imaginar que los asteriscos significan "no tan mal", probablemente significan que estos son puntos muy inusuales por algún criterio).

Luego, si tiene valores atípicos, mírelos e intente averiguar por qué.

Luego puede probar la regresión con y sin los valores atípicos. Si los resultados son similares, la vida es buena. Informe los resultados completos con una nota al pie. Si no es similar, entonces debes explicar ambas regresiones.

Peter Flom - Restablece a Monica
fuente
1
Muchas gracias Peter He inspeccionado los gráficos QQ y los datos no parecen ser extraordinariamente no normales. Cuando elimino los valores atípicos, no parecen hacer mucha diferencia en los resultados. Entonces, por lo tanto, ¿debería dejarlos? Todavía estaría interesado en escuchar los pensamientos de otros sobre la tabla de diagnóstico de casos en SPSS. Muchas gracias.
Anon
1
Sí, luego los dejaría con una nota al pie de página algo así como "el análisis con varios valores atípicos eliminados mostró resultados muy similares"
Peter Flom - Restablece a Monica
2
Incluso suponiendo que uno pueda encontrar valores atípicos confiables usando un procedimiento de este tipo (y la mayoría de las veces, uno no puede ) que todavía deja extrañamente sin resolver el problema de qué hacer cuando no puede "descubrir" / explicar los valores atípicos. Secundo el consejo de mantenerme alejado de SPSS. -
user603