En el análisis de regresión lineal, analizamos valores atípicos, investigamos la multicolinealidad, probamos la heterocedasticidad.
La pregunta es: ¿hay alguna orden para aplicarlos? Quiero decir, ¿primero tenemos que analizar los valores atípicos y luego examinar la multicolinealidad? O al revés?
¿Hay alguna regla general sobre esto?
Respuestas:
El proceso es iterativo, pero hay un orden natural:
Primero debe preocuparse por las condiciones que causan errores numéricos directos . La multicolinealidad es una de esas, porque puede producir sistemas inestables de ecuaciones que pueden dar como resultado respuestas incorrectas (con 16 decimales ...) Cualquier problema aquí generalmente significa que no puede continuar hasta que se solucione. La multicolinealidad generalmente se diagnostica utilizando factores de inflación de varianza y un examen similar de la "matriz del sombrero". Las comprobaciones adicionales en esta etapa pueden incluir la evaluación de la influencia de los valores faltantes en el conjunto de datos y la verificación de la identificación de parámetros importantes. (Las combinaciones faltantes de variables independientes discretas a veces pueden causar problemas aquí).
A continuación, debe preocuparse si el resultado refleja la mayoría de los datos o si es sensible a un pequeño subconjunto. En el último caso, todo lo que haga posteriormente puede ser engañoso, por lo que debe evitarse. Los procedimientos incluyen el examen de valores atípicos y de apalancamiento . (Un dato de alto apalancamiento puede no ser un valor atípico, pero aun así puede influir indebidamente en todos los resultados). Si existe una alternativa sólida al procedimiento de regresión, este es un buen momento para aplicarlo: verifique que esté produciendo resultados similares y Úselo para detectar valores periféricos.
Finalmente, habiendo logrado una situación que es numéricamente estable (para que pueda confiar en los cálculos) y que refleja el conjunto de datos completo, pasa a un examen de los supuestos estadísticos necesarios para la interpretación correcta de la salida . Principalmente, estas preocupaciones se centran, en un orden de importancia aproximado, en las distribuciones de los residuos (incluida la heterocedasticidad, pero también se extienden a la simetría, la forma de distribución, la posible correlación con los valores pronosticados u otras variables y la autocorrelación), la bondad de ajuste (incluida la posible necesidad de términos de interacción), si reexpresar la variable dependiente y si reexpresar las variables independientes.
En cualquier etapa, si algo necesita ser corregido, entonces es aconsejable volver al principio. repita tantas veces como sea necesario.
fuente
Creo que depende de la situación. Si no espera ningún problema en particular, probablemente pueda verificarlos en cualquier orden. Si espera valores atípicos y podría tener una razón para eliminarlos después de detectarlos, compruebe primero los valores atípicos. Los otros problemas con el modelo podrían cambiar después de eliminar las observaciones. Después de eso, el orden entre multicollinaerity y heteroscedasticity no importa. Estoy de acuerdo con Chris en que los valores atípicos no deben eliminarse arbitrariamente. Debe tener una razón para pensar que las observaciones están equivocadas.
Por supuesto, si observa multicolinealidad o heterocedasticidad, es posible que deba cambiar su enfoque. El problema de la multicolinealidad se observa en la matriz de covarianza, pero existen pruebas de diagnóstico específicas para detectar la multicolinealidad y otros problemas, como los puntos de apalancamiento, en el libro Diagnóstico de regresión de Belsley, Kuh y Welsch o en uno de los libros de regresión de Dennis Cook .
fuente