Estoy tratando de ver si las variables x e y juntas o por separado afectan significativamente Q_7 (el histograma para el cual está arriba). He realizado una prueba de normalidad de Shapiro-Wilk y obtuve lo siguiente
shapiro.test(Q_7)
## data: Q_7
## W = 0.68439, p-value < 2.2e-16
Con esta distribución, ¿funcionará la siguiente regresión? ¿O hay otra prueba que debería hacer?
lm(Q_7 ~ x*y)
regression
assumptions
kjetil b halvorsen
fuente
fuente
Q_7
. Por el momento está muy sesgada a la derecha. Verifique también las distribuciones de los predictores.Respuestas:
Un análisis de regresión supone que los datos se distribuyen normalmente condicionados a las variables en el modelo de regresión . Es decir, si este es el modelo de regresión: donde es su matriz de variables regresoras, es el (vector de) datos a explicar, es un vector de coeficientes en los regresores y es una variabilidad aleatoria (típicamente considerada ruido), entonces el supuesto de Normalidad se aplica estrictamente a , no a (editar: bueno, estrictamente hablando, se aplica a la distribución condicional
Lo que está probando aquí es la distribución de , donde lo que desea probar es la distribución de . Por supuesto, no conoce , pero puede estimarlo ejecutando la regresión y examinando la distribución de los residuos (donde son los coeficientes estimados de la regresión) . Estos residuos son una estimación de , por lo que su distribución será una aproximación de la distribución de .y ε ε ε^=y−Xβ^ β^ ε^ ε ε
fuente
La respuesta corta es sí.
En primer lugar (como señala Ruben van Bergen), la distribución de (o , para el caso) no es relevante. Si tuviera que hacer una suposición de distribución, estaría en sus residuos , así que eso es lo que debe verificar.y X ε
Pero lo que es más importante, no necesita la suposición de normalidad para que su estimación funcione. Está utilizando laY X
lm
función de R , que estima su modelo utilizando mínimos cuadrados ordinarios (MCO) . Ese método le dará una estimación correcta de la expectativa de condicional en siempre que:Si además asume que sus residuos no están correlacionados y que todos tienen la misma varianza, entonces se aplica el teorema de Gauss-Markov y el MCO es el mejor estimador imparcial lineal (AZUL).
Si sus residuos están correlacionados o tienen diferentes variaciones, entonces OLS aún funciona, pero puede ser menos preciso, lo que debe reflejarse en la forma en que informa los intervalos de confianza de sus estimaciones (usando, por ejemplo , errores estándar robustos ).
Si también supone que sus residuos se distribuyen normalmente, entonces OLS se vuelve asintóticamente eficiente porque es equivalente a la máxima probabilidad.
Por lo tanto, la regresión puede funcionar mejor si sus datos se distribuyen normalmente, pero seguirá funcionando si no lo están.
fuente