Una compañera de trabajo está analizando algunos datos biológicos para su disertación con cierta heterocedasticidad desagradable (figura a continuación). Lo está analizando con un modelo mixto pero todavía tiene problemas con los residuos.
La transformación logarítmica de las variables de respuesta limpia las cosas y, basándose en la retroalimentación a esta pregunta, este parece ser un enfoque apropiado. Originalmente, sin embargo, habíamos pensado que había problemas al usar variables transformadas con modelos mixtos. Resulta que habíamos estado malinterpretando una declaración en SAS de Littell & Milliken (2006) para modelos mixtos que señalaba por qué no es apropiado transformar los datos de conteo y luego analizarlos con un modelo mixto lineal normal (la cita completa se encuentra a continuación) .
Un enfoque que también mejoró los residuos fue utilizar un modelo lineal generalizado con una distribución de Poisson. He leído que la distribución de Poisson se puede usar para modelar datos continuos (por ejemplo, como se discutió en esta publicación ), y los paquetes de estadísticas lo permiten, pero no entiendo qué sucede cuando el modelo se ajusta.
Con el fin de comprender cómo se realizan los cálculos subyacentes, mis preguntas son: cuando ajusta una distribución de Poisson a datos continuos, 1) ¿se redondean los datos al número entero más cercano? 2) esto da como resultado la pérdida de información y 3) ¿ Cuándo, si alguna vez, es apropiado usar un modelo de Poisson para datos continuos?
Littel & Milliken 2006, pg 529 "transformar los datos [recuento] puede ser contraproducente. Por ejemplo, una transformación puede distorsionar la distribución de los efectos aleatorios del modelo o la linealidad del modelo. Más importante aún, la transformación de los datos deja abierta la posibilidad de recuentos predichos negativos. En consecuencia, la inferencia de un modelo mixto que utiliza datos transformados es altamente sospechosa ".
fuente
Respuestas:
Estuve estimando regresiones de Poisson de resultado positivo continuo con el estimador de varianza linealizado Huber / White / Sandwich con bastante frecuencia. Sin embargo, esa no es una razón particularmente buena para hacer nada, así que aquí hay algunas referencias reales.
También hay algunas pruebas de simulación alentadoras de Santos Silva y Tenreyro (2006), donde el Poisson es el mejor en el show. También funciona bien en una simulación con muchos ceros en el resultado . También puede hacer fácilmente su propia simulación para convencerse de que esto funciona en su caja de copos de nieve.
Finalmente, también puede usar un GLM con una función de enlace de registro y la familia Poisson. Esto produce resultados idénticos y aplaca las reacciones instintivas de solo datos de conteo.
Referencias sin enlaces no unificados:
Gourieroux, C., A. Monfort y A. Trognon (1984). "Métodos de pseudo máxima verosimilitud: aplicaciones a modelos de Poisson" , Econometrica , 52, 701-720.
fuente
La distribución de Poisson es solo para datos de recuento, tratar de alimentarlo con datos continuos es desagradable y creo que no debería hacerse. Una de las razones es que no sabes cómo escalar tu variable continua. ¡Y el Poisson depende mucho de la escala! Traté de explicarlo con un simple ejemplo aquí . Entonces, solo por esta razón, no usaría Poisson para otra cosa que no sean datos de conteo.
Recuerde también que GLM hace 2 cosas: función de enlace (transformación de la respuesta var., Registro en el caso de Poisson) y residuales (distribución de Poisson en este caso). Piense en la tarea biológica, en los residuos y luego seleccione el método adecuado. A veces tiene sentido usar la transformación logarítmica, pero quédese con los residuos distribuidos normalmente.
Escucho esto por primera vez! No tiene ningún sentido para mí en absoluto. El modelo mixto puede ser como un modelo lineal normal, solo con efectos aleatorios adicionales. ¿Puedes poner una cita exacta aquí? En mi opinión, si log transform aclara las cosas, ¡solo úsalo!
fuente
Aquí hay otra gran discusión sobre cómo usar el modelo de Poisson para ajustar las regresiones logarítmicas: http://blog.stata.com/2011/08/22/use-poisson-rather-than-regress-tell-a-friend/ (Le digo a un amigo, tal como lo sugiere la entrada del blog). El objetivo básico es que solo usamos la parte del modelo de Poisson que es el enlace de registro. La parte que requiere que la varianza sea igual a la media puede anularse con una estimación sandwich de la varianza. Sin embargo, todo esto es para datos iid; Dimitriy Masterov ha hecho referencia adecuada a las extensiones de modelo agrupado / mixto .
fuente
Si el problema es la variación de la varianza con la media, pero tiene datos continuos, ¿ha pensado en utilizar distribuciones continuas que puedan resolver los problemas que tiene? Tal vez un gamma? La varianza tendrá una relación cuadrática con la media, muy parecida a un binomio negativo, en realidad.
fuente