¿En qué orden debe hacer diagnósticos de regresión lineal?

En el análisis de regresión lineal, analizamos valores atípicos, investigamos la multicolinealidad, probamos la heterocedasticidad.

La pregunta es: ¿hay alguna orden para aplicarlos? Quiero decir, ¿primero tenemos que analizar los valores atípicos y luego examinar la multicolinealidad? O al revés?

¿Hay alguna regla general sobre esto?

regression multiple-regression outliers halil
fuente

Algunas reglas generales muy generales: debe investigar la colinealidad antes de hacer cualquier ajuste. Si encuentra que está presente, debe (a) usar un método que maneje la colinealidad, (b) eliminar las características colineales o (c) transformar sus características (por ejemplo, utilizando PCA). Una vez que haya ajustado un modelo, puede buscar la heterocedasticidad en los residuos. En general, si está haciendo un modelo predictivo, no debe eliminar los valores atípicos. En su lugar, utilice un método que sea robusto ante la presencia de valores atípicos.

Chris Taylor

¿Cómo se investiga mejor la colinealidad? ¿Mirando los elementos fuera de la diagonal de la matriz de correlación de predictores?

miura

La mejor manera de investigar la colinealidad son los índices de condición y la proporción de varianza explicada por ellos. La alta correlación no es una condición necesaria ni suficiente para la colinealidad.

Peter Flom - Restablece a Monica

Respuestas:

El proceso es iterativo, pero hay un orden natural:

Primero debe preocuparse por las condiciones que causan errores numéricos directos . La multicolinealidad es una de esas, porque puede producir sistemas inestables de ecuaciones que pueden dar como resultado respuestas incorrectas (con 16 decimales ...) Cualquier problema aquí generalmente significa que no puede continuar hasta que se solucione. La multicolinealidad generalmente se diagnostica utilizando factores de inflación de varianza y un examen similar de la "matriz del sombrero". Las comprobaciones adicionales en esta etapa pueden incluir la evaluación de la influencia de los valores faltantes en el conjunto de datos y la verificación de la identificación de parámetros importantes. (Las combinaciones faltantes de variables independientes discretas a veces pueden causar problemas aquí).
A continuación, debe preocuparse si el resultado refleja la mayoría de los datos o si es sensible a un pequeño subconjunto. En el último caso, todo lo que haga posteriormente puede ser engañoso, por lo que debe evitarse. Los procedimientos incluyen el examen de valores atípicos y de apalancamiento . (Un dato de alto apalancamiento puede no ser un valor atípico, pero aun así puede influir indebidamente en todos los resultados). Si existe una alternativa sólida al procedimiento de regresión, este es un buen momento para aplicarlo: verifique que esté produciendo resultados similares y Úselo para detectar valores periféricos.
Finalmente, habiendo logrado una situación que es numéricamente estable (para que pueda confiar en los cálculos) y que refleja el conjunto de datos completo, pasa a un examen de los supuestos estadísticos necesarios para la interpretación correcta de la salida . Principalmente, estas preocupaciones se centran, en un orden de importancia aproximado, en las distribuciones de los residuos (incluida la heterocedasticidad, pero también se extienden a la simetría, la forma de distribución, la posible correlación con los valores pronosticados u otras variables y la autocorrelación), la bondad de ajuste (incluida la posible necesidad de términos de interacción), si reexpresar la variable dependiente y si reexpresar las variables independientes.

En cualquier etapa, si algo necesita ser corregido, entonces es aconsejable volver al principio. repita tantas veces como sea necesario.

whuber
fuente

De hecho, prefiero usar índices de condición en lugar de VIF. Hice mi disertación sobre esto, hace un tiempo.

Peter Flom - Restablece a Monica

@Peter Buen punto. También prefiero los índices de condición, pero me parece que los VIF son muy populares ahora.

whuber

Whuber, seguí aquí desde tu comentario de hoy. Una vez consulté con un estadístico durante mi postdoc sobre algunas preocupaciones con respecto a la multicolinealidad. Profesó una opinión de que, dependiendo de la naturaleza de los IV en una regresión, la colinealidad podría considerarse estructuralmente parte de los fenómenos que se modelan. Probablemente estoy manipulando su lenguaje preciso, y tendría que cavar para incluso encontrar su nombre nuevamente, pero ¿conoce algún texto que motive un razonamiento matizado sobre la multicolinealidad en este sentido? Solo una pregunta casual. :)

Alexis

@ Alexis Parece que el estadístico tiene un concepto matizado y sofisticado de multicolinealidad. No puedo pensar en ningún libro de texto que lo exprese claramente.

whuber

Solo tendré que localizarlo y preguntarle al respecto. :)

Alexis

Creo que depende de la situación. Si no espera ningún problema en particular, probablemente pueda verificarlos en cualquier orden. Si espera valores atípicos y podría tener una razón para eliminarlos después de detectarlos, compruebe primero los valores atípicos. Los otros problemas con el modelo podrían cambiar después de eliminar las observaciones. Después de eso, el orden entre multicollinaerity y heteroscedasticity no importa. Estoy de acuerdo con Chris en que los valores atípicos no deben eliminarse arbitrariamente. Debe tener una razón para pensar que las observaciones están equivocadas.

Por supuesto, si observa multicolinealidad o heterocedasticidad, es posible que deba cambiar su enfoque. El problema de la multicolinealidad se observa en la matriz de covarianza, pero existen pruebas de diagnóstico específicas para detectar la multicolinealidad y otros problemas, como los puntos de apalancamiento, en el libro Diagnóstico de regresión de Belsley, Kuh y Welsch o en uno de los libros de regresión de Dennis Cook .

Michael R. Chernick
fuente

Michael, en el futuro, ¿puedes usar las opciones de formato? (la clave correcta para insertar enlaces es ctrl-l, no ctrl-c).

usuario603