Al ajustar un modelo de regresión, qué sucede si no se cumplen los supuestos de los resultados, específicamente:
- ¿Qué sucede si los residuos no son homoscedásticos? Si los residuos muestran un patrón creciente o decreciente en la gráfica Residual vs.
- ¿Qué sucede si los residuos no se distribuyen normalmente y no pasan la prueba de Shapiro-Wilk? La prueba de normalidad de Shapiro-Wilk es una prueba muy estricta y, a veces, incluso si el gráfico Normal-QQ parece algo razonable, los datos no pasan la prueba.
- ¿Qué sucede si uno o más predictores no se distribuyen normalmente, no se ven bien en el gráfico Normal-QQ o si los datos no pasan la prueba de Shapiro-Wilk?
Entiendo que no hay una división en blanco y negro, que 0.94 es correcto y 0.95 es incorrecto, y en la pregunta, quiero saber:
- ¿Qué significa el fracaso de la normalidad para un modelo que se ajusta bien de acuerdo con el valor R-Squared? ¿Se vuelve menos confiable o completamente inútil?
- ¿En qué medida, la desviación es aceptable, o es aceptable en absoluto?
- Al aplicar transformaciones en los datos para cumplir con los criterios de normalidad, ¿el modelo mejora si los datos son más normales (valor P más alto en la prueba de Shapiro-Wilk, mejor en el gráfico QQ normal), o es inútil (igualmente bueno o mal en comparación con el original) hasta que los datos pasan la prueba de normalidad?
regression
multiple-regression
error
assumptions
normality-assumption
SpeedBirdNine
fuente
fuente
Respuestas:
Si el término de error no es homoscedastic (usamos los residuos como un proxy para el término de error no observable), el estimador OLS sigue siendo consistente e imparcial, pero ya no es el más eficiente en la clase de estimadores lineales. Es el estimador GLS ahora el que disfruta de esta propiedad.
El teorema de Gauss-Markov no requiere normalidad. El estimador OLS sigue siendo AZUL pero sin normalidad tendrá dificultades para hacer inferencia, es decir, pruebas de hipótesis e intervalos de confianza, al menos para tamaños de muestra finitos. Sin embargo, todavía queda el bootstrap.
Asintóticamente, esto es un problema menor ya que el estimador OLS tiene una distribución normal limitante en condiciones de regularidad moderada.
Hasta donde sé, los predictores se consideran fijos o la regresión está condicionada a ellos. Esto limita el efecto de la no normalidad.
El R cuadrado es la proporción de la varianza explicada por el modelo. No requiere la suposición de normalidad y es una medida de bondad de ajuste independientemente. Sin embargo, si desea usarlo para una prueba F parcial, esa es otra historia.
Te refieres a la desviación de la normalidad, ¿verdad? Realmente depende de tus propósitos porque, como dije, la inferencia se vuelve difícil en ausencia de normalidad, pero no es imposible (¡bootstrap!).
En resumen, si tiene todos los supuestos de Gauss-Markov más la normalidad, entonces el estimador OLS es el mejor imparcial (BUE), es decir, el más eficiente en todas las clases de estimadores: se alcanza el límite inferior de Cramer-Rao. Esto es deseable, por supuesto, pero no es el fin del mundo si no sucede. Se aplican las observaciones anteriores.
Con respecto a las transformaciones, tenga en cuenta que si bien la distribución de la respuesta podría acercarse a la normalidad, la interpretación podría no ser sencilla después.
Estas son solo algunas respuestas cortas a sus preguntas. Parece estar particularmente preocupado por las implicaciones de la no normalidad. En general, diría que no es tan catastrófico como la gente (¿se ha hecho creer?) Y existen soluciones alternativas. Las dos referencias que he incluido son un buen punto de partida para futuras lecturas, siendo la primera de naturaleza teórica.
referencias :
fuente