Supuesto de normalidad en regresión lineal

11

Como una suposición de regresión lineal, la normalidad de la distribución del error a veces se "extiende" o interpreta erróneamente como la necesidad de normalidad de y o x.

¿Es posible construir un escenario / conjunto de datos donde X e Y no sean normales pero el término de error lo sea y, por lo tanto, las estimaciones de regresión lineal obtenidas sean válidas?

ECII
fuente
55
Ejemplo trivial: X tiene una distribución de Bernoulli (es decir, toma los valores 0 o 1); Y = X + N (0, 0.1). Ni X ni Y normalmente se distribuyen solos, pero la regresión de Y en X todavía funciona.
Hong Ooi
Supongo que estás pensando en la distribución de los residuos, no en la distribución de las variables.
tashuhka
55
Tengo un ejemplo resuelto aquí: ¿Qué pasa si los residuos se distribuyen normalmente pero Y no?
gung - Restablece a Monica
Relacionado: stats.stackexchange.com/questions/148803/…
kjetil b halvorsen

Respuestas:

16

Ampliando el comentario de Hong Oois con una imagen. Aquí hay una imagen de un conjunto de datos donde ninguno de los marginales está normalmente distribuido pero los residuales aún lo están, por lo que los supuestos de regresión lineal siguen siendo válidos:

ingrese la descripción de la imagen aquí

La imagen fue generada por el siguiente código R:

library(psych)
x <- rbinom(100, 1, 0.3)
y <- rnorm(length(x), 5 + x * 5, 1)

scatter.hist(x, y, correl=F, density=F, ellipse=F, xlab="x", ylab="y")
Rasmus Bååth
fuente