¿Regresión de Poisson versus regresión de mínimos cuadrados de recuento logarítmico?

21

Una regresión de Poisson es un GLM con una función de enlace de registro.

Una forma alternativa de modelar datos de recuento no distribuidos normalmente es preprocesar tomando el registro (o mejor dicho, el registro (1 + recuento) para manejar los 0). Si realiza una regresión de mínimos cuadrados en las respuestas de recuento logarítmico, ¿está relacionado con una regresión de Poisson? ¿Puede manejar fenómenos similares?

Brendan OConnor
fuente
66
¿Cómo planea tomar logaritmos de cualquier recuento que sea cero?
whuber
3
Definitivamente no es equivalente. Una manera fácil de ver esto es mirar lo que sucedería si observaras recuentos cero. (Comentario creado antes de ver el comentario de @ whuber. Aparentemente esta página no se actualizó correctamente en mi navegador.)
cardenal
OK, obviamente debería decir, log (1 + count). Obviamente no es equivalente, pero se pregunta si hubo una relación, o si pueden manejar fenómenos similares.
Brendan OConnor
1
Aquí hay una discusión útil sobre este tema: blog.stata.com/2011/08/22/…
Michael Bishop

Respuestas:

22

Por un lado, en una regresión de Poisson, el lado izquierdo de la ecuación del modelo es el logaritmo de la cuenta esperada: .Iniciar sesión(mi[YEl |X])

Por otro lado, en un modelo lineal "estándar", el lado izquierdo es el valor esperado de la variable de respuesta normal: . En particular, la función de enlace es la función de identidad.mi[YEl |X]

Ahora, digamos que es una variable de Poisson y que tiene la intención de normalizarla tomando el registro: . Debido a que se supone que es normal, planea ajustar el modelo lineal estándar para el que el lado izquierdo es . Pero, en general, . Como consecuencia, estos dos enfoques de modelado son diferentes.Y = log ( Y ) Y E [ Y | x ] = E [ log ( Y ) | x ] E [ log ( Y ) | x ] log ( E [ Y | x ] )YY=Iniciar sesión(Y)Ymi[YEl |X]=mi[Iniciar sesión(Y)El |X]mi[Iniciar sesión(Y)El |X]Iniciar sesión(mi[YEl |X])

ocram
fuente
66
En realidad, siempre a menos que P ( Y = f ( X ) | X ) = 1 para alguna función medible σ ( X ) f , es decir, Y está totalmente determinado por X . mi(Iniciar sesión(Y)El |X)Iniciar sesión(mi(YEl |X)) PAGS(Y=F(X)El |X)=1σ(X)FYX
cardenal
@cardenal. Muy bien puesto.
suncoolsu
9

Veo dos diferencias importantes.

Primero, los valores predichos (en la escala original) se comportan de manera diferente; en mínimos cuadrados loglineales representan medias geométricas condicionales; en el modelo log-poisson, representan medios condicionales. Dado que los datos en este tipo de análisis a menudo están sesgados a la derecha, la media geométrica condicional subestimará la media condicional.

Una segunda diferencia es la distribución implícita: lognormal versus poisson. Esto se relaciona con la estructura de heterocedasticidad de los residuos: varianza residual proporcional a los valores esperados al cuadrado (lognormal) versus varianza residual proporcional al valor esperado (Poisson).

ludo
fuente
-1

Una diferencia obvia es que la regresión de Poisson producirá enteros como predicciones puntuales, mientras que la regresión lineal de recuento logarítmico puede producir no enteros.

Galit Shmueli
fuente
12
¿Cómo funciona? ¿El GLM no estima expectativas , que no son necesariamente integrales?
whuber
1
Esto no es cierto. Mecánicamente, las regresiones de Poisson son perfectamente capaces de manejar no enteros. Los errores estándar no se distribuirán poisson, pero en su lugar puede usar errores estándar robustos.
Mateo