¿La suposición de errores normales implica que Y también es normal?

12

A menos que me equivoque, en un modelo lineal, se supone que la distribución de la respuesta tiene un componente sistemático y un componente aleatorio. El término de error captura el componente aleatorio. Por lo tanto, si suponemos que el término de error se distribuye normalmente, ¿no implica eso que la respuesta también se distribuye normalmente? Creo que sí, pero luego declaraciones como la siguiente parecen bastante confusas:

Y puede ver claramente que la única suposición de "normalidad" en este modelo es que los residuos (o "errores" ) deberían distribuirse normalmente. No se asume la distribución del predictor o la variable de respuesta . $\epsilon_i$ $x_i$ $y_i$

Fuente: predictores, respuestas y residuos: ¿qué es lo que realmente necesita distribuirse normalmente?

regression assumptions Ernest A
fuente

77

Si las

no son estocásticas, la normalidad de

implica la normalidad de la variable dependiente. Para las variables independientes estocásticas, esto no se mantendrá en general, entonces depende de la distribución de las variables independientes.

x

$x$

ϵ

$\epsilon$

19

El modelo OLS estándar es con para un fijo . $Y = X \beta + \varepsilon$ $\varepsilon \sim \mathcal N(\vec 0, \sigma^2 I_n)$ $X \in \mathbb R^{n \times p}$

De hecho, esto significa que , aunque esto es una consecuencia de nuestra suposición sobre la distribución de , en lugar de ser realmente la suposición. También hay que tener en cuenta que estoy hablando de la distribución condicional de , no la distribución marginal de . Me estoy centrando en la distribución condicional porque creo que eso es lo que realmente estás preguntando. $Y|\{X, \beta, \sigma^2\} \sim \mathcal N(X\beta, \sigma^2 I_n)$ $\varepsilon$ $Y$ $Y$

Creo que la parte que es confusa es que esto no significa que un histograma de se verá normal. Estamos diciendo que todo el vector es un solo dibujo de una distribución normal multivariada donde cada elemento tiene una media potencialmente diferente . Esto no es lo mismo que ser una muestra normal de iid. Los errores realidad son una muestra iid, por lo que un histograma de ellos se vería normal (y es por eso que hacemos un gráfico QQ de los residuos, no la respuesta). $Y$ $Y$ $E(Y_i|X_i) = X_i^T\beta$ $\varepsilon$

$H$ $H_i = \beta_0 + \beta_1I(\text{12th grader}) + \varepsilon_i$ $\varepsilon_i \sim \ \text{iid} \ \mathcal N(0, \sigma^2)$ $H_i$

jld
fuente

σ^{2} I_{n}

$\sigma^2 I_n$

n \times n

$n \times n$

σ^{2}

$\sigma^2$

n \times n

$n\times n$

11

Por lo tanto, si suponemos que el término de error se distribuye normalmente, ¿no implica eso que la respuesta también se distribuye normalmente?

Ni remotamente. La forma en que recuerdo esto es que los residuos son condicionales normales en la porción determinista del modelo . Aquí hay una demostración de cómo se ve eso en la práctica.

Comienzo generando al azar algunos datos. Luego defino un resultado que es una función lineal de los predictores y calculo un modelo.

N <- 100

x1 <- rbeta(N, shape1=2, shape2=10)
x2 <- rbeta(N, shape1=10, shape2=2)

x <- c(x1,x2)
plot(density(x, from=0, to=1))

y <- 1+10*x+rnorm(2*N, sd=1)

model<-lm(y~x)

Echemos un vistazo a cómo se ven estos residuos. Sospecho que deberían distribuirse normalmente, ya que el resultado yhabía agregado ruido normal. Y de hecho ese es el caso.

plot(density(model$residuals), main="Model residuals", lwd=2)
s <- seq(-5,20, len=1000)
lines(s, dnorm(s), col="red")

plot(density(y), main="KDE of y", lwd=2)
lines(s, dnorm(s, mean=mean(y), sd=sd(y)), col="red")

Sin embargo, comprobando la distribución de y, ¡podemos ver que definitivamente no es normal! He superpuesto la función de densidad con la misma media y varianza que y, pero obviamente es un ajuste terrible.

La razón por la que esto sucedió en este caso es que los datos de entrada ni siquiera son remotamente normales. Nada sobre este modelo de regresión requiere normalidad, excepto en los residuos, no en la variable independiente y no en la variable dependiente.

Sycorax dice reinstalar a Mónica
fuente

8

No lo hace Por ejemplo, supongamos que tenemos un modelo que predice el peso de los atletas olímpicos. Si bien el peso bien podría distribuirse normalmente entre los atletas en cada deporte, no lo será entre todos los atletas, incluso podría no ser unimodal.

Peter Flom - Restablece a Monica
fuente

¿La suposición de errores normales implica que Y también es normal?

Respuestas: