¿Por qué la regresión lineal y el modelo generalizado tienen supuestos inconsistentes?
- En la regresión lineal, suponemos que el residuo proviene de Gauss
- En otra regresión (regresión logística, regresión por envenenamiento), asumimos que la respuesta viene de alguna distribución (binomial, veneno, etc.).
¿Por qué a veces se asume residual y otras veces se supone en respuesta? ¿Es porque queremos derivar diferentes propiedades?
EDITAR: Creo que mark999 muestra que dos formas son iguales. Sin embargo, tengo dudas adicionales sobre iid:
Mi otra pregunta, ¿existe una suposición sobre regresión logística? muestra que el modelo lineal generalizado no tiene suposición iid (independiente pero no idéntico)
¿Es cierto que para la regresión lineal, si planteamos una suposición sobre residual , tendremos iid, pero si planteamos una suposición sobre la respuesta , tendremos muestras independientes pero no idénticas (diferentes gaussianos con diferentes )?
Respuestas:
La regresión lineal simple que tiene errores gaussianos es un atributo muy agradable que no se generaliza a los modelos lineales generalizados.
En los modelos lineales generalizados, la respuesta sigue cierta distribución dada la media . La regresión lineal sigue este patrón; si tenemos
conϵyo∼ N( 0 , σ)
entonces también tenemos
Bien, entonces la respuesta sigue la distribución dada para los modelos lineales generalizados, pero para la regresión lineal también tenemos que los residuales siguen una distribución gaussiana. ¿Por qué se enfatiza que los residuos son normales cuando esa no es la regla generalizada? Bueno, porque es la regla mucho más útil. Lo bueno de pensar en la normalidad de los residuos es que es mucho más fácil de examinar. Si restamos las medias estimadas, todos los residuos deberían tener aproximadamente la misma varianza y aproximadamente la misma media (0) y se distribuirán aproximadamente de manera normal (nota: digo "aproximadamente" porque si no tenemos estimaciones perfectas de la parámetros de regresión, que por supuesto no lo hacemos, la varianza de las estimaciones deϵyo tendrá diferentes variaciones basadas en los rangos de . ¡Pero espero que haya suficiente precisión en las estimaciones de que esto es ignorable!).X
Por otro lado, mirando el no ajustado 's, que no se puede decir si son normales si todos ellos tienen diferentes medios. Por ejemplo, considere el siguiente modelo:yyo
con y x i ~ Bernoulli ( p = 0,5 )ϵyo∼ N( 0 , 0.2 ) Xyo∼ Bernoulli ( p = 0,5 )
A continuación, el será muy bimodal, pero no viola las suposiciones de regresión lineal! Por otro lado, los residuos seguirán una distribución más o menos normal.yyo
Aquí hay un
R
código para ilustrar.fuente
El modelo habitual de regresión lineal múltiple con errores normales es un modelo lineal generalizado con respuesta normal y enlace de identidad.
fuente