Suposiciones de modelos lineales y qué hacer si los residuos no están distribuidos normalmente

22

Estoy un poco confundido sobre cuáles son los supuestos de la regresión lineal.

Hasta ahora verifiqué si:

Todas las variables explicativas se correlacionaron linealmente con la variable de respuesta. (Este fue el caso)
hubo alguna colinealidad entre las variables explicativas. (había poca colinealidad).
las distancias de Cook de los puntos de datos de mi modelo están por debajo de 1 (este es el caso, todas las distancias están por debajo de 0.4, por lo que no hay puntos de influencia).
Los residuos se distribuyen normalmente. (este puede no ser el caso)

Pero luego leí lo siguiente:

Las violaciones de la normalidad a menudo surgen porque (a) las distribuciones de las variables dependientes y / o independientes son significativamente no normales, y / o (b) se viola el supuesto de linealidad.

Pregunta 1 Esto hace que parezca que las variables independientes y dependientes deben distribuirse normalmente, pero que yo sepa, este no es el caso. Mi variable dependiente, así como una de mis variables independientes, no se distribuyen normalmente. Deberían ser?

Pregunta 2 Mi gráfico QQnormal de los residuos se ve así:

Eso difiere ligeramente de una distribución normal y shapiro.testtambién rechaza la hipótesis nula de que los residuos son de una distribución normal:

> shapiro.test(residuals(lmresult))
W = 0.9171, p-value = 3.618e-06

Los residuos frente a los valores ajustados se ven así:

¿Qué puedo hacer si mis residuos no se distribuyen normalmente? ¿Significa que el modelo lineal es completamente inútil?

linear-model residuals assumptions normality-assumption Stefan
fuente

3

Su gráfico de residuos versus ajustado sugiere que su variable dependiente tiene un límite inferior. Esto podría impulsar los patrones que ves. Esto podría darle indicaciones sobre modelos alternativos que podría considerar.

Maarten Buis

25

En primer lugar, me conseguiría una copia de este artículo clásico y accesible y lo leería: Anscombe FJ. (1973) Gráficos en análisis estadístico The American Statistician . 27: 17–21.

A sus preguntas:

Respuesta 1: Ni la variable dependiente ni la independiente deben distribuirse normalmente. De hecho, pueden tener todo tipo de distribuciones en bucle. La hipótesis de normalidad se aplica a la distribución de los errores ( $Y_{i} - \hat{Y}_{i}$ ).

Respuesta 2: En realidad, está preguntando acerca de dos supuestos separados de regresión de mínimos cuadrados ordinarios (MCO):

Uno es el supuesto de linealidad . Esto significa que la relación entre $Y$ y $X$ se expresa mediante una línea recta (¿Derecha? Directamente de regreso al álgebra: $y = a +bx$ , donde $a$ es la intersección en $y$ , y $b$ es la pendiente de la línea). Una violación de esta suposición simplemente significa que la relación no está bien descrita por una línea recta (por ejemplo, $Y$ es una función sinusoidal de $X$ , o una función cuadrática, o incluso una línea recta que cambia la pendiente en algún punto). Mi propio enfoque preferido de dos pasos para abordar la no linealidad es (1) realizar algún tipo de regresión de suavizado no paramétrico para sugerir relaciones funcionales no lineales específicas entre $Y$ y $X$ (p. Ej., Usando LOWESS o GAM s, etc.), y (2) para especificar una relación funcional utilizando una regresión múltiple que incluye no linealidades en $X$ (por ejemplo, $Y \sim X + X^{2}$ ) o un modelo de regresión de mínimos cuadrados no lineal que incluye no linealidades en parámetros de X (por ejemplo, $Y \sim X + \max{(X-\theta,0)}$ , donde $\theta$ representa el punto donde la línea de regresión de $Y$ en $X$ cambia la pendiente).
Otra es la suposición de residuos distribuidos normalmente. Algunas veces uno puede escapar válidamente con residuos no normales en un contexto OLS; véase, por ejemplo, Lumley T, Emerson S. (2002) La importancia del supuesto de normalidad en grandes conjuntos de datos de salud pública . Revisión anual de salud pública . 23: 151–69. A veces, uno no puede (nuevamente, vea el artículo de Anscombe).

Sin embargo, recomendaría pensar en los supuestos en OLS no tanto como las propiedades deseadas de sus datos, sino más bien como puntos de partida interesantes para describir la naturaleza. Después de todo, la mayor parte de lo que nos importa en el mundo es más interesante que $y$ intercepción y la pendiente. Violar creativamente los supuestos de OLS (con los métodos apropiados) nos permite hacer y responder preguntas más interesantes.

Alexis
fuente

2

¡Gracias! En las diapositivas de algunos cursos de estadística, dice que si los supuestos fallan, puede intentar transformar Y o transformar las variables explicativas. Cuando transformo la Y haciendo, por ejemplo, lm (Y ^ 0.3 ~ + X1 + X2 + ...), entonces mis residuos se distribuyen normalmente. ¿Es esto algo válido para hacer?

Stefan

@Stefan ¡Sí! Transformar una respuesta a menudo es algo bueno log, y las transformaciones de potencia simples son comunes.

Gregor

Var (f (x) \neq f (Var (x))

$\text{Var}(f(x) \ne f(\text{Var}(x))$

\ln Y = β_{0} + β_{X} X + ε

$\ln Y =\beta_{0} + \beta_{X}X + \varepsilon$

β_{X}

$\beta_{X}$

e^{β_{X}}

$e^{\beta_{X}}$

β_{X}

$\beta_{X}$

e^{CI β_{X}}

$e^{\text{CI}\beta_{X}}$

@Alexis: ¿Por qué estas páginas dicen que las variables tienen que distribuirse normalmente? (1) pareonline.net/getvn.asp?n=2&v=8 (2) statisticssolutions.com/…

stackoverflowuser2010

77

Y = β_{0} + β_{X} X + ε

$Y = \beta_{0} + \beta_{X}X + \varepsilon$

ε \sim N (0, σ)

$\varepsilon \sim \mathcal{N}(0,\sigma)$

Y = 3 + 0.5 \times X + N (0, 1)

$Y = 3 + 0.5\times X + \mathcal{N}(0,1)$

Y

$Y$

X

$X$

β_{0} \approx 3, β_{X} \approx 0.5

$\beta_{0}\approx 3, \beta_{X}\approx 0.5$

X

$X$

Y

$Y$

11

Tus primeros problemas son

a pesar de sus garantías, la gráfica residual muestra que la respuesta condicional esperada no es lineal en los valores ajustados; El modelo para la media está equivocado.
No tienes una varianza constante. El modelo para la varianza es incorrecto.

ni siquiera puedes evaluar la normalidad con esos problemas allí.

Glen_b -Reinstate a Monica
fuente

Por favor, explique cómo ha concluido acerca de la linealidad al observar las parcelas. Entiendo que el supuesto de homocedasticidad no se cumple aquí.

Dra. Nisha Arora

\hat{y}

$\hat{y}$

\hat{y} = 30

$\hat{y}=30$

0

$0$

60

$60$

< 0

$<0$

0 - 30

$0-30$

30 - 60

$30-60$

> 60

$>60$ ), dibuje su mejor estimación de una línea recta. Para mí, los dos del medio son casi coincidentes, así que combiné sus líneas, dando algo como esto

Glen_b

En la mitad media, casi todos los residuos son negativos, en las partes externas casi todos los residuos son positivos. Así no se ven los residuos aleatorios.

Glen_b -Reinstala a Monica

Gracias, @Glen_b. Después de una larga brecha, estoy revisando mis conceptos para no poder visualizar en primer lugar.

Dra. Nisha Arora

Si bien no hay mucho que hacer aquí, espero que los datos originales no sean negativos, y que un modelo lineal generalizado (quizás un gamma con enlace logarítmico) o una transformación (probablemente una transformación logarítmica) sería una opción más adecuada .

Glen_b -Reinstala a Monica

3

No diría que el modelo lineal es completamente inútil. Sin embargo, esto significa que su modelo no explica correcta / completamente sus datos. Hay una parte en la que debe decidir si el modelo es "suficientemente bueno" o no.

Para su primera pregunta, no creo que un modelo de regresión lineal asuma que sus variables dependientes e independientes tienen que ser normales. Sin embargo, existe una suposición acerca de la normalidad de los residuos.

Para su segunda pregunta, hay dos cosas diferentes que podría considerar:

Verifique diferentes tipos de modelos. Otro modelo podría ser mejor para explicar sus datos (por ejemplo, regresión no lineal, etc.). Todavía tendría que verificar que no se violen los supuestos de este "nuevo modelo".
Es posible que sus datos no contengan suficientes covariables (variables dependientes) para explicar la respuesta (resultado). En este caso, no puedes hacer nada más. A veces, podemos aceptar verificar si los residuos siguen una distribución diferente (por ejemplo, distribución t), pero no parece ser el caso para usted.

Además de su pregunta, veo que su QQPlot no está "normalizado". Por lo general, es más fácil mirar el gráfico cuando sus residuos están estandarizados, vea los estándares .

stdres(lmobject)

Espero que te ayude, tal vez alguien más lo explique mejor que yo.

Julien D.
fuente

0

Además de la respuesta anterior, me gustaría agregar algunos puntos para mejorar su modelo:

A veces, la no normalidad de los residuos indica la presencia de valores atípicos. Si este es el caso, primero maneje los valores atípicos.
Puede estar utilizando algunas transformaciones para resolver el propósito.
Además, para tratar la multicolinealidad, puede consultar https://www.researchgate.net/post/My_data_has_the_problem_of_multicolinearity_Removing_unique_variables_using_variance_inflation_factor_VIF_didnt_work_Any_solution

Dra. Nisha Arora
fuente

-1

Para tu segunda pregunta,

Algo que me sucedió en la práctica fue que estaba ajustando demasiado mi respuesta con muchas variables independientes. En el modelo sobreajustado tenía residuos no normales. Sin embargo, los resultados establecieron que no había suficiente evidencia para descartar la posibilidad de que algunos coeficientes fueran cero (con valores de p superiores a 0.2). Entonces, en un segundo modelo, descartando variables siguiendo un procedimiento de selección hacia atrás, obtuve los residuos normales validados tanto gráficamente con un diagrama qq como mediante pruebas de hipotesis con una prueba de Shapiro-Wilk. Comprueba si este podría ser tu caso.

Ayar Paco
fuente

Suposiciones de modelos lineales y qué hacer si los residuos no están distribuidos normalmente

Respuestas: