¿Usando regresión de Poisson para datos continuos?

11

¿Se puede usar la distribución de Poisson para analizar datos continuos y datos discretos?

Tengo algunos conjuntos de datos donde las variables de respuesta son continuas, pero se parecen a una distribución de Poisson en lugar de una distribución normal. Sin embargo, la distribución de Poisson es una distribución discreta y generalmente se refiere a números o recuentos.

usuario3136
fuente
Entonces, ¿cómo difieren sus distribuciones empíricas de las variables Gamma?
whuber
1
He usado la distribución gamma para estos datos. Si usa la distribución gamma con un enlace de registro, obtiene casi el mismo resultado que obtiene de un modelo de Poisson sobredispersado. Sin embargo, en la mayoría de los paquetes estadísticos estoy familiarizado con la regresión de Poisson es más simple y mucho más flexible.
user3136
¿No habría otras distribuciones que sean mejores, por ejemplo, la sugerencia de Whuber de gamma?
Peter Flom - Restablece a Monica
1
@PeterFlom: me pregunto si este problema surge mucho porque el paquete glmnet en R no admite ni la familia Gamma ni la familia Gauss con una función de enlace de registro. Sin embargo, debido a que glmnet se usa como un paquete de modelado predictivo (por lo tanto, los usuarios solo están interesados ​​en los coeficientes del modelo, no en los coeficientes. estimaciones para modelos de la forma ln [E (y)] = beta0 + beta * X con respuestas continuas independientemente de la distribución, supongo que los autores de glmnet no se molestaron en incluir estas familias adicionales.
RobertF

Respuestas:

12

La suposición clave de un modelo lineal generalizado que es relevante aquí es la relación entre la varianza y la media de la respuesta, dados los valores de los predictores. Cuando especifica una distribución de Poisson, lo que esto implica es que está asumiendo que la varianza condicional es igual a la media condicional. * La forma real de la distribución no importa tanto: podría ser Poisson, o gamma, o normal, o cualquier otra cosa, siempre y cuando esa relación media-varianza se mantenga.

* Puede relajar la suposición de que la varianza es igual a la media de uno de proporcionalidad, y aún así, generalmente, obtiene buenos resultados.

Hong Ooi
fuente
9

Si está hablando de usar una respuesta de Poisson en un modelo lineal generalizado, entonces sí, si está dispuesto a asumir que la varianza de cada observación es igual a su media.

Si no desea hacer eso, otra alternativa puede ser transformar la respuesta (por ejemplo, tomar registros).

Simon Byrne
fuente
Creo que, además de su punto, incluso si @ user3136 no está dispuesto a asumir la media = varianza, él / ella puede usar a la quasipoissonfamilia glm.
suncoolsu
2
Pero mi problema es por qué querrías transformar datos continuos en discretos. Está perdiendo información esencialmente. Además, cuando una logtransformación simple hubiera funcionado, ¿por qué discretizar sus datos? Usando glmtrabajos, pero cada resultado está basado en los asintóticos (que pueden o no ser válidos)
suncoolsu
@suncoolsu: 1) cuasipoisson hace que la suposición de la media sea proporcional a la varianza. 2) No me refería a transformar a discreto, me refería a transformar (mantener la continuidad) para que pudieras usar un modelo diferente.
Simon Byrne
Sí, entendí de acuerdo contigo. Lo siento, estaba hablando de la pregunta. Cuasi-poisson, tiene en cuenta el exceso de persona ¿verdad? (si no recuerdo
mal
En este caso particular, no estaba satisfecho de que cualquier transformación que intentara (log, sqrt, box-cox) ofreciera una buena aproximación a la normalidad. Por cierto, si utilizo el método de transformación de puntaje normal, entonces puedo transformar la mayoría de los datos a una normalidad casi hermosa, pero no he visto esta transformación ampliamente utilizada, así que supongo que hay un problema (es difícil volver a transformar).
user3136