Estoy un poco confundido sobre cuáles son los supuestos de la regresión lineal.
Hasta ahora verifiqué si:
- Todas las variables explicativas se correlacionaron linealmente con la variable de respuesta. (Este fue el caso)
- hubo alguna colinealidad entre las variables explicativas. (había poca colinealidad).
- las distancias de Cook de los puntos de datos de mi modelo están por debajo de 1 (este es el caso, todas las distancias están por debajo de 0.4, por lo que no hay puntos de influencia).
- Los residuos se distribuyen normalmente. (este puede no ser el caso)
Pero luego leí lo siguiente:
Las violaciones de la normalidad a menudo surgen porque (a) las distribuciones de las variables dependientes y / o independientes son significativamente no normales, y / o (b) se viola el supuesto de linealidad.
Pregunta 1 Esto hace que parezca que las variables independientes y dependientes deben distribuirse normalmente, pero que yo sepa, este no es el caso. Mi variable dependiente, así como una de mis variables independientes, no se distribuyen normalmente. Deberían ser?
Pregunta 2 Mi gráfico QQnormal de los residuos se ve así:
Eso difiere ligeramente de una distribución normal y shapiro.test
también rechaza la hipótesis nula de que los residuos son de una distribución normal:
> shapiro.test(residuals(lmresult))
W = 0.9171, p-value = 3.618e-06
Los residuos frente a los valores ajustados se ven así:
¿Qué puedo hacer si mis residuos no se distribuyen normalmente? ¿Significa que el modelo lineal es completamente inútil?
Respuestas:
En primer lugar, me conseguiría una copia de este artículo clásico y accesible y lo leería: Anscombe FJ. (1973) Gráficos en análisis estadístico The American Statistician . 27: 17–21.
A sus preguntas:
Respuesta 1: Ni la variable dependiente ni la independiente deben distribuirse normalmente. De hecho, pueden tener todo tipo de distribuciones en bucle. La hipótesis de normalidad se aplica a la distribución de los errores (Yi−Y^i ).
Respuesta 2: En realidad, está preguntando acerca de dos supuestos separados de regresión de mínimos cuadrados ordinarios (MCO):
Uno es el supuesto de linealidad . Esto significa que la relación entreY y X se expresa mediante una línea recta (¿Derecha? Directamente de regreso al álgebra: y=a+bx , donde a es la intersección en y , y b es la pendiente de la línea). Una violación de esta suposición simplemente significa que la relación no está bien descrita por una línea recta (por ejemplo, Y es una función sinusoidal de X , o una función cuadrática, o incluso una línea recta que cambia la pendiente en algún punto). Mi propio enfoque preferido de dos pasos para abordar la no linealidad es (1) realizar algún tipo de regresión de suavizado no paramétrico para sugerir relaciones funcionales no lineales específicas entre Y y X (p. Ej., Usando LOWESS o GAM s, etc.), y (2) para especificar una relación funcional utilizando una regresión múltiple que incluye no linealidades en X (por ejemplo, Y∼X+X2 ) o un modelo de regresión de mínimos cuadrados no lineal que incluye no linealidades en parámetros de X (por ejemplo, Y∼X+max(X−θ,0) , dondeθ representa el punto donde la línea de regresión deY enX cambia la pendiente).
Otra es la suposición de residuos distribuidos normalmente. Algunas veces uno puede escapar válidamente con residuos no normales en un contexto OLS; véase, por ejemplo, Lumley T, Emerson S. (2002) La importancia del supuesto de normalidad en grandes conjuntos de datos de salud pública . Revisión anual de salud pública . 23: 151–69. A veces, uno no puede (nuevamente, vea el artículo de Anscombe).
Sin embargo, recomendaría pensar en los supuestos en OLS no tanto como las propiedades deseadas de sus datos, sino más bien como puntos de partida interesantes para describir la naturaleza. Después de todo, la mayor parte de lo que nos importa en el mundo es más interesante quey intercepción y la pendiente. Violar creativamente los supuestos de OLS (con los métodos apropiados) nos permite hacer y responder preguntas más interesantes.
fuente
log
, y las transformaciones de potencia simples son comunes.Tus primeros problemas son
a pesar de sus garantías, la gráfica residual muestra que la respuesta condicional esperada no es lineal en los valores ajustados; El modelo para la media está equivocado.
No tienes una varianza constante. El modelo para la varianza es incorrecto.
ni siquiera puedes evaluar la normalidad con esos problemas allí.
fuente
No diría que el modelo lineal es completamente inútil. Sin embargo, esto significa que su modelo no explica correcta / completamente sus datos. Hay una parte en la que debe decidir si el modelo es "suficientemente bueno" o no.
Para su primera pregunta, no creo que un modelo de regresión lineal asuma que sus variables dependientes e independientes tienen que ser normales. Sin embargo, existe una suposición acerca de la normalidad de los residuos.
Para su segunda pregunta, hay dos cosas diferentes que podría considerar:
Además de su pregunta, veo que su QQPlot no está "normalizado". Por lo general, es más fácil mirar el gráfico cuando sus residuos están estandarizados, vea los estándares .
Espero que te ayude, tal vez alguien más lo explique mejor que yo.
fuente
Además de la respuesta anterior, me gustaría agregar algunos puntos para mejorar su modelo:
A veces, la no normalidad de los residuos indica la presencia de valores atípicos. Si este es el caso, primero maneje los valores atípicos.
Puede estar utilizando algunas transformaciones para resolver el propósito.
Además, para tratar la multicolinealidad, puede consultar https://www.researchgate.net/post/My_data_has_the_problem_of_multicolinearity_Removing_unique_variables_using_variance_inflation_factor_VIF_didnt_work_Any_solution
fuente
Para tu segunda pregunta,
Algo que me sucedió en la práctica fue que estaba ajustando demasiado mi respuesta con muchas variables independientes. En el modelo sobreajustado tenía residuos no normales. Sin embargo, los resultados establecieron que no había suficiente evidencia para descartar la posibilidad de que algunos coeficientes fueran cero (con valores de p superiores a 0.2). Entonces, en un segundo modelo, descartando variables siguiendo un procedimiento de selección hacia atrás, obtuve los residuos normales validados tanto gráficamente con un diagrama qq como mediante pruebas de hipotesis con una prueba de Shapiro-Wilk. Comprueba si este podría ser tu caso.
fuente