A menos que me equivoque, en un modelo lineal, se supone que la distribución de la respuesta tiene un componente sistemático y un componente aleatorio. El término de error captura el componente aleatorio. Por lo tanto, si suponemos que el término de error se distribuye normalmente, ¿no implica eso que la respuesta también se distribuye normalmente? Creo que sí, pero luego declaraciones como la siguiente parecen bastante confusas:
Y puede ver claramente que la única suposición de "normalidad" en este modelo es que los residuos (o "errores" ) deberían distribuirse normalmente. No se asume la distribución del predictor x i o la variable de respuesta y i .
Fuente: predictores, respuestas y residuos: ¿qué es lo que realmente necesita distribuirse normalmente?
fuente
Respuestas:
El modelo OLS estándar es con ε ∼ N ( → 0 , σ 2 I n ) para un X ∈ R n × p fijo .Y= Xβ+ ε ε ∼ N( 0⃗ , σ2yonorte) X∈Rn×p
De hecho, esto significa que , aunque esto es una consecuencia de nuestra suposición sobre la distribución de ε , en lugar de ser realmente la suposición. También hay que tener en cuenta que estoy hablando de la distribución condicional de Y , no la distribución marginal de Y . Me estoy centrando en la distribución condicional porque creo que eso es lo que realmente estás preguntando.Y|{X,β,σ2}∼N(Xβ,σ2In) ε Y Y
Creo que la parte que es confusa es que esto no significa que un histograma de se verá normal. Estamos diciendo que todo el vector Y es un solo dibujo de una distribución normal multivariada donde cada elemento tiene una media potencialmente diferente E ( Y i | X i ) = X T i β . Esto no es lo mismo que ser una muestra normal de iid. Los errores ε en realidad son una muestra iid, por lo que un histograma de ellos se vería normal (y es por eso que hacemos un gráfico QQ de los residuos, no la respuesta).Y Y E(Yi|Xi)=XTiβ ε
fuente
Ni remotamente. La forma en que recuerdo esto es que los residuos son condicionales normales en la porción determinista del modelo . Aquí hay una demostración de cómo se ve eso en la práctica.
Comienzo generando al azar algunos datos. Luego defino un resultado que es una función lineal de los predictores y calculo un modelo.
Echemos un vistazo a cómo se ven estos residuos. Sospecho que deberían distribuirse normalmente, ya que el resultado
y
había agregado ruido normal. Y de hecho ese es el caso.Sin embargo, comprobando la distribución de y, ¡podemos ver que definitivamente no es normal! He superpuesto la función de densidad con la misma media y varianza que
y
, pero obviamente es un ajuste terrible.La razón por la que esto sucedió en este caso es que los datos de entrada ni siquiera son remotamente normales. Nada sobre este modelo de regresión requiere normalidad, excepto en los residuos, no en la variable independiente y no en la variable dependiente.
fuente
No lo hace Por ejemplo, supongamos que tenemos un modelo que predice el peso de los atletas olímpicos. Si bien el peso bien podría distribuirse normalmente entre los atletas en cada deporte, no lo será entre todos los atletas, incluso podría no ser unimodal.
fuente