Medida de "desviación" para el Poisson inflado a cero o el binomio negativo inflado a cero?

11

La desviación escalada, definida como D = 2 * (log-verosimilitud del modelo saturado menos log-verosimilitud del modelo ajustado), a menudo se usa como una medida de bondad de ajuste en los modelos GLM. El porcentaje de desviación explicado, definido como [D (modelo nulo) - D (modelo ajustado)] / D (modelo nulo), a veces también se usa como el análogo GLM del R-cuadrado de la regresión lineal. Aparte del hecho de que las distribuciones ZIP y ZINB no son parte de la familia exponencial de distribuciones, tengo problemas para entender por qué la desviación escalada y la desviación porcentual explicada no se usan en el modelado inflado a cero. ¿Alguien puede arrojar algo de luz sobre esto o proporcionar referencias útiles? ¡Gracias por adelantado!

aleanjeo
fuente
muy buena pregunta - Me gustaría saber esto también
user2673238

Respuestas:

3

La desviación es un concepto GLM, los modelos ZIP y ZINB no son glms, sino que están formulados como mezclas finitas de distribuciones que son GLM y, por lo tanto, pueden resolverse fácilmente a través del algoritmo EM.

Estas notas describen la teoría de la desviación de manera concisa. Si lee esas notas, verá la prueba de que el modelo saturado para la regresión de Poisson tiene probabilidad de registro

(λs)=i=1,yi0n[yilog(yi)yilog(yi!)]

que resulta de las estimaciones del .yi=λ^i

Continuaré ahora con la probabilidad ZIP porque la matemática es más simple, resultados similares se mantienen para el ZINB. Desafortunadamente para el ZIP, no existe una relación simple como en el Poisson. Los th observaciones diario de probabilidad esi

i(ϕ,λ)=Zilog(ϕ+(1ϕ)eλ)+(1Zi)[λ+yilog(λ)log(yi!)].

no se observan los lo que para resolver esto, necesitaría tomar derivadas parciales wrt tanto como , establecer las ecuaciones en 0 y luego resolver y . La dificultad aquí son los valores , estos pueden ir a o a y no es posible sin observar qué poner las observaciones . Sin embargo, si supiéramos el valor no necesitaríamos un modelo ZIP porque no tendríamos datos faltantes. Los datos observados corresponden a la probabilidad de "datos completos" en el formalismo EM.Ziλϕλϕyi=0λ^ϕ^Ziyi=0Zi

Un enfoque que podría ser razonable es trabajar con la expectativa wrt de la probabilidad de registro de datos completa, que elimina la y la reemplaza con una expectativa, esto es parte de lo que calcula el algoritmo EM (el paso E) con las actualizaciones más recientes. Sin embargo, no conozco ninguna literatura que haya estudiado este enfoque de la desviación .ZiE(i(ϕ,λ))Ziexpected

Además, esta pregunta se hizo primero, así que respondí a esta publicación. Sin embargo, hay otra pregunta sobre el mismo tema con un buen comentario de Gordon Smyth aquí: desviación para el modelo de Poisson compuesto inflado a cero, datos continuos (R) donde mencionó la misma respuesta (esta es una elaboración de ese comentario digamos) además mencionaron en los comentarios a la otra publicación un artículo que tal vez quieras leer. (descargo de responsabilidad, no he leído el documento al que se hace referencia)

Lucas Roberts
fuente