¿Por qué la regresión lineal tiene suposición sobre el modelo lineal residual pero generalizado tiene suposiciones sobre la respuesta?

14

¿Por qué la regresión lineal y el modelo generalizado tienen supuestos inconsistentes?

  • En la regresión lineal, suponemos que el residuo proviene de Gauss
  • En otra regresión (regresión logística, regresión por envenenamiento), asumimos que la respuesta viene de alguna distribución (binomial, veneno, etc.).

¿Por qué a veces se asume residual y otras veces se supone en respuesta? ¿Es porque queremos derivar diferentes propiedades?


EDITAR: Creo que mark999 muestra que dos formas son iguales. Sin embargo, tengo dudas adicionales sobre iid:

Mi otra pregunta, ¿existe una suposición sobre regresión logística? muestra que el modelo lineal generalizado no tiene suposición iid (independiente pero no idéntico)

¿Es cierto que para la regresión lineal, si planteamos una suposición sobre residual , tendremos iid, pero si planteamos una suposición sobre la respuesta , tendremos muestras independientes pero no idénticas (diferentes gaussianos con diferentes μ )?

Haitao Du
fuente
Ver también stats.stackexchange.com/questions/295340/…
kjetil b halvorsen

Respuestas:

12

La regresión lineal simple que tiene errores gaussianos es un atributo muy agradable que no se generaliza a los modelos lineales generalizados.

En los modelos lineales generalizados, la respuesta sigue cierta distribución dada la media . La regresión lineal sigue este patrón; si tenemos

yyo=β0 0+β1Xyo+ϵyo

con ϵyonorte(0 0,σ)

entonces también tenemos

yyonorte(β0 0+β1Xyo,σ)

Bien, entonces la respuesta sigue la distribución dada para los modelos lineales generalizados, pero para la regresión lineal también tenemos que los residuales siguen una distribución gaussiana. ¿Por qué se enfatiza que los residuos son normales cuando esa no es la regla generalizada? Bueno, porque es la regla mucho más útil. Lo bueno de pensar en la normalidad de los residuos es que es mucho más fácil de examinar. Si restamos las medias estimadas, todos los residuos deberían tener aproximadamente la misma varianza y aproximadamente la misma media (0) y se distribuirán aproximadamente de manera normal (nota: digo "aproximadamente" porque si no tenemos estimaciones perfectas de la parámetros de regresión, que por supuesto no lo hacemos, la varianza de las estimaciones de ϵyotendrá diferentes variaciones basadas en los rangos de . ¡Pero espero que haya suficiente precisión en las estimaciones de que esto es ignorable!).X

Por otro lado, mirando el no ajustado 's, que no se puede decir si son normales si todos ellos tienen diferentes medios. Por ejemplo, considere el siguiente modelo:yyo

yyo=0 0+2×Xyo+ϵyo

con y x i ~ Bernoulli ( p = 0,5 )ϵyonorte(0 0,0.2 0.2)XyoBernoulli(pag=0.5 0.5)

A continuación, el será muy bimodal, pero no viola las suposiciones de regresión lineal! Por otro lado, los residuos seguirán una distribución más o menos normal.yyo

Aquí hay un Rcódigo para ilustrar.

x <- rbinom(1000, size = 1, prob = 0.5)
y <- 2 * x + rnorm(1000, sd = 0.2)
fit <- lm(y ~ x)
resids <- residuals(fit)
par(mfrow = c(1,2))
hist(y, main = 'Distribution of Responses')
hist(resids, main = 'Distribution of Residuals')

histogramas

Acantilado
fuente
yyo=1+2×Xyo+ϵyo
3
@ hxd1011: sí, esta es la diferencia entre la distribución marginal (claramente no normal) y la distribución condicional dada x (¡sabemos que es normal ya que la simulamos!). No pensar en la diferencia entre distribuciones condicionales y marginales es un error extremadamente común.
Cliff AB
14

yo=1,...,norte

Yyo=β0 0+β1Xyo1+...+βkXyok+ϵyo,
ϵyoσ2Xyo1,...,XyokYyoβ0 0+β1Xyo1+...+βkXyokσ2

Xyo1,...,Xyokβ0 0+β1Xyo1+...+βkXyok

El modelo habitual de regresión lineal múltiple con errores normales es un modelo lineal generalizado con respuesta normal y enlace de identidad.

mark999
fuente