¿Cómo funciona una distribución de Poisson al modelar datos continuos y resulta en pérdida de información?

20

Una compañera de trabajo está analizando algunos datos biológicos para su disertación con cierta heterocedasticidad desagradable (figura a continuación). Lo está analizando con un modelo mixto pero todavía tiene problemas con los residuos.

La transformación logarítmica de las variables de respuesta limpia las cosas y, basándose en la retroalimentación a esta pregunta, este parece ser un enfoque apropiado. Originalmente, sin embargo, habíamos pensado que había problemas al usar variables transformadas con modelos mixtos. Resulta que habíamos estado malinterpretando una declaración en SAS de Littell & Milliken (2006) para modelos mixtos que señalaba por qué no es apropiado transformar los datos de conteo y luego analizarlos con un modelo mixto lineal normal (la cita completa se encuentra a continuación) .

Un enfoque que también mejoró los residuos fue utilizar un modelo lineal generalizado con una distribución de Poisson. He leído que la distribución de Poisson se puede usar para modelar datos continuos (por ejemplo, como se discutió en esta publicación ), y los paquetes de estadísticas lo permiten, pero no entiendo qué sucede cuando el modelo se ajusta.

Con el fin de comprender cómo se realizan los cálculos subyacentes, mis preguntas son: cuando ajusta una distribución de Poisson a datos continuos, 1) ¿se redondean los datos al número entero más cercano? 2) esto da como resultado la pérdida de información y 3) ¿ Cuándo, si alguna vez, es apropiado usar un modelo de Poisson para datos continuos?

Littel & Milliken 2006, pg 529 "transformar los datos [recuento] puede ser contraproducente. Por ejemplo, una transformación puede distorsionar la distribución de los efectos aleatorios del modelo o la linealidad del modelo. Más importante aún, la transformación de los datos deja abierta la posibilidad de recuentos predichos negativos. En consecuencia, la inferencia de un modelo mixto que utiliza datos transformados es altamente sospechosa ".

ingrese la descripción de la imagen aquí

N Brouwer
fuente
1
Al igual que @Tomas, no sé por qué no deberías transformar las variables antes de un modelo mixto, y he leído bastante sobre este tema. Tengo el libro de Ramon y Littel ... ¿a qué página hace referencia?
Peter Flom - Restablece a Monica
Resulta que estábamos interpretando mal una declaración en la página 529.
N Brouwer

Respuestas:

22

Estuve estimando regresiones de Poisson de resultado positivo continuo con el estimador de varianza linealizado Huber / White / Sandwich con bastante frecuencia. Sin embargo, esa no es una razón particularmente buena para hacer nada, así que aquí hay algunas referencias reales.

y

También hay algunas pruebas de simulación alentadoras de Santos Silva y Tenreyro (2006), donde el Poisson es el mejor en el show. También funciona bien en una simulación con muchos ceros en el resultado . También puede hacer fácilmente su propia simulación para convencerse de que esto funciona en su caja de copos de nieve.

Finalmente, también puede usar un GLM con una función de enlace de registro y la familia Poisson. Esto produce resultados idénticos y aplaca las reacciones instintivas de solo datos de conteo.

Referencias sin enlaces no unificados:

Gourieroux, C., A. Monfort y A. Trognon (1984). "Métodos de pseudo máxima verosimilitud: aplicaciones a modelos de Poisson" , Econometrica , 52, 701-720.

Dimitriy V. Masterov
fuente
2
Vea también esta bonita entrada de blog en el blog de Stata escrito por Bill Gould - blog.stata.com/2011/08/22/…
boscovich
1
y
Hay una publicación relacionada en el blog de Stata que ofrece evidencia de simulación adicional .
Dimitriy V. Masterov
6

La distribución de Poisson es solo para datos de recuento, tratar de alimentarlo con datos continuos es desagradable y creo que no debería hacerse. Una de las razones es que no sabes cómo escalar tu variable continua. ¡Y el Poisson depende mucho de la escala! Traté de explicarlo con un simple ejemplo aquí . Entonces, solo por esta razón, no usaría Poisson para otra cosa que no sean datos de conteo.

Recuerde también que GLM hace 2 cosas: función de enlace (transformación de la respuesta var., Registro en el caso de Poisson) y residuales (distribución de Poisson en este caso). Piense en la tarea biológica, en los residuos y luego seleccione el método adecuado. A veces tiene sentido usar la transformación logarítmica, pero quédese con los residuos distribuidos normalmente.

"pero parece que la sabiduría convencional es que no debes transformar los datos que ingresan en un modelo mixto"

Escucho esto por primera vez! No tiene ningún sentido para mí en absoluto. El modelo mixto puede ser como un modelo lineal normal, solo con efectos aleatorios adicionales. ¿Puedes poner una cita exacta aquí? En mi opinión, si log transform aclara las cosas, ¡solo úsalo!

Curioso
fuente
Gracias por la ayuda; Lo que pensé que era "sabiduría convencional" fue una lectura errónea de Littel y Milliken. Edité mi pregunta y agregué la cita de L&M 2006.
N Brouwer
@NBrouwer: sí, parece que realmente lo malinterpretaste. ¡Es desagradable transformar los datos de recuento y es aún más desagradable transformar los datos continuos para contar datos y tratar de encajar a Poisson en ellos! Eso es lo que intenté explicarte. No lo hagas Simplemente log-transform sus datos continuos como lo necesite. Esto es muy común en las estadísticas, no hay que preocuparse por eso.
Curioso
5

Aquí hay otra gran discusión sobre cómo usar el modelo de Poisson para ajustar las regresiones logarítmicas: http://blog.stata.com/2011/08/22/use-poisson-rather-than-regress-tell-a-friend/ (Le digo a un amigo, tal como lo sugiere la entrada del blog). El objetivo básico es que solo usamos la parte del modelo de Poisson que es el enlace de registro. La parte que requiere que la varianza sea igual a la media puede anularse con una estimación sandwich de la varianza. Sin embargo, todo esto es para datos iid; Dimitriy Masterov ha hecho referencia adecuada a las extensiones de modelo agrupado / mixto .

StasK
fuente
1

Si el problema es la variación de la varianza con la media, pero tiene datos continuos, ¿ha pensado en utilizar distribuciones continuas que puedan resolver los problemas que tiene? Tal vez un gamma? La varianza tendrá una relación cuadrática con la media, muy parecida a un binomio negativo, en realidad.

jebyrnes
fuente