Familia de GLM representa la distribución de la respuesta variable o residuales?

13

He estado discutiendo con varios miembros del laboratorio sobre este, y hemos recurrido a varias fuentes, pero aún no tenemos la respuesta:

Cuando decimos que un GLM tiene una familia de poisson , digamos, ¿estamos hablando de la distribución de los residuos o la variable de respuesta?

Puntos de contención

  1. Al leer este artículo, se afirma que los supuestos del GLM son la independencia estadística de las observaciones, la especificación correcta del enlace y la función de varianza (lo que me hace pensar en los residuos, no en la variable de respuesta), la escala correcta de medición para la variable de respuesta y falta de influencia indebida de puntos únicos

  2. Esta pregunta tiene dos respuestas con dos puntos cada una, la que aparece primero habla de los residuos y la segunda acerca de la variable de respuesta, ¿cuál es?

  3. En esta publicación de blog , cuando se habla de supuestos, dicen " La distribución de los residuos puede ser otra, por ejemplo, binomial ".

  4. Al comienzo de este capítulo dicen que la estructura de los errores tiene que ser Poisson, pero los residuos seguramente tendrán valores positivos y negativos, ¿cómo puede ser Poisson?

  5. Esta pregunta, que a menudo se cita en preguntas como esta para duplicarlas, no tiene una respuesta aceptada

  6. En esta pregunta, las respuestas hablan sobre la respuesta y no sobre los residuos.

  7. En la descripción de este curso de la Universidad de Pensilvania, hablan de la variable de respuesta en los supuestos, no de los residuos.

Derek Corcoran
fuente

Respuestas:

18

El argumento de la familia para los modelos glm determina la familia de distribución para la distribución condicional de la respuesta , no de los residuos (a excepción de los modelos cuasi ).

Mire de esta manera: para la regresión lineal habitual, podemos escribir el modelo como

YyoNormal(β0 0+XyoTβ,σ2).
Esto significa que la respuesta Yyo tiene una distribución normal (con varianza constante), pero la expectativa es diferente para cada yo . Por lo tanto, la distribución condicional de la respuesta es una distribución normal (pero diferente para cada yo ). Otra forma de escribir este modelo es
Yyo=β0 0+XyoTβ+ϵyo
donde cadaϵyo se distribuyeNormal(0 0,σ2) .

β0 0+XyoTβϵyo

Entonces, para todas esas otras familias, usamos una definición en el estilo de la primera ecuación mostrada arriba. Es decir, la distribución condicional de la respuesta. Entonces, no, los residuos (lo que se haya definido) en la regresión de Poisson no tienen una distribución de Poisson.

kjetil b halvorsen
fuente
13

Además de la excelente respuesta de Kjetil, quería agregar algunos ejemplos específicos para ayudar a aclarar el significado de una distribución condicional , que puede ser un poco difícil de entender.

Digamos que tomó una muestra aleatoria de 100 peces de un lago y está interesado en ver cómo la edad de los peces afecta a varias variables de resultado:

  1. Peso del pescado (peso);
  2. Si los peces son o no más de 30 cm;
  3. Número de escamas de pescado.

La primera variable de resultado es continua, la segunda es binaria (0 = el pez NO mide más de 30 cm; 1 = el pez ES más de 30 cm) y la tercera es una variable de conteo.

Regresión lineal simple

¿Cómo afecta la edad al peso? Va a formular un modelo de regresión lineal simple de la forma:

Peso=β0 0+β1Años+ϵ

ϵσβ0 0+β1Años

Regresión logística binaria simple

¿Cómo afecta la edad si los peces son o no más de 30 cm? Va a formular un modelo de regresión logística binaria simple de la forma:

losol(pag1-pag)=β0 0+β1Años

pagβ0 0+β1Añospagpag(1-pag)

Regresión simple de Poisson

¿Cómo afecta la edad al número de escamas de pescado? Va a formular un modelo de regresión de Poisson simple de la forma:

losol(μ)=β0 0+β1Años

μβ0 0+β1Años

En resumen, una distribución condicional representa la distribución de los valores de resultado para valores específicos de las variables predictoras incluidas en el modelo . Cada tipo de modelo de regresión ilustrado anteriormente impone ciertos supuestos de distribución en la distribución condicional de la variable de resultado dada la edad. En base a estos supuestos de distribución, el modelo procede a formular cómo (1) la media de la distribución condicional varía en función de la edad (regresión lineal simple), (2) la media transformada por logit de la distribución condicional varía en función de age (regresión logística binaria simple) o (3) la media transformada logarítmica de la distribución condicional varía en función de la edad.

Para cada tipo de modelo, se pueden definir los residuos correspondientes con el fin de verificar el modelo. En particular, los residuos de Pearson y de desviación podrían definirse para los modelos de regresión logística y de Poisson.

Isabella Ghement
fuente
2
EXCELENTES respuestas. Gracias a los dos. Nunca me di cuenta de que el residuo "real" nunca es realmente explícito en el marco general de GLM como lo es en el caso de distribución normal.
mlofton
1
@mlofton: Gracias por sus amables palabras. Una excelente pregunta invita a excelentes respuestas. Todos nos beneficiamos de este intercambio de conocimiento.
Isabella Ghement
44
Utilicé GLM durante mucho tiempo (durante uno o dos años, como hace 10 años) y esa siempre fue mi confusión, pero nunca supe que era mi confusión hasta que me lo pidieron y explicaron con tanta claridad. Entonces, a veces la confusión significa que ni siquiera se puede hacer la pregunta correcta. Gracias de nuevo.
mlofton
1
¡Tienes toda la razón! La confusión es parte del aprendizaje: cuando luchamos con algo por un tiempo, estamos preparados para comprenderlo mejor cuando de repente nos topamos con una explicación clara.
Isabella Ghement
1
Un placer y gracias por su excelente respuesta @IsabellaGhement
Patrick