Medida de la varianza explicada para Poisson GLM (función de enlace de registro)

Estoy buscando una medida adecuada de la "varianza explicada" de un Poisson GLM (usando una función de enlace de registro).

He encontrado una cantidad de recursos diferentes (tanto en este sitio como en otros lugares) que analizan una serie de diferentes pseudo- $R^2$ medidas, pero casi todos los sitios mencionan las medidas en relación con una función logit-link, y no discuten si el pseudo- $R^2$ las medidas son apropiadas para otras funciones de enlace, como log-link para mi distribución de Poission GLM.

Por ejemplo, aquí hay algunos de los sitios que he encontrado:

¿Qué seudo- $R^2$ ¿Cuál es la medida para reportar la regresión logística (Cox & Snell o Nagelkerke)?

http://thestatsgeek.com/2014/02/08/r-squared-in-logistic-regression/

http://www.ats.ucla.edu/stat/mult_pkg/faq/general/Psuedo_RSquareds.htm

Mi pregunta es: ¿Alguno de los métodos discutidos en esos enlaces (en particular, las preguntas frecuentes en la página de UCLA) son apropiados para un GLM de Poission (usando una función de enlace de registro)? ¿Algún método en particular es más apropiado y / o estándar que cualquier otro método?

Algunos antecedentes:

Esto es para un trabajo de investigación en el que estoy usando un Poission GLM para analizar datos neuronales. Estoy usando los dispositivos de los modelos (calculados suponiendo una distribución de Poission) para comparar dos modelos: Un modelo (A) que incluye 5 parámetros que quedaron fuera del otro modelo (B). Mi interés (y el enfoque del artículo) es mostrar que esos 5 parámetros mejoran estadísticamente el ajuste del modelo. Sin embargo, uno de los revisores quisiera una indicación de qué tan bien ambos modelos se ajustan a los datos.

Si estaba usando OLS para ajustar mis datos, el revisor está solicitando efectivamente el $R^2$ valor para el modelo con los 5 parámetros y sin los 5 parámetros, para indicar qué tan bien cada modelo explica la varianza. Me parece una solicitud razonable. Digamos que, hipotéticamente, el modelo B tiene un $R^2$ de 0.05 y el modelo A tiene un $R^2$ de 0.25: aunque eso puede ser una mejora estadísticamente significativa, ninguno de los modelos hace un buen trabajo al explicar los datos. Alternativamente, si el modelo B tiene un $R^2$ de 0.5 y el modelo A tiene un $R^2$ de 0.7, que podría interpretarse de una manera muy diferente. Estoy buscando la medida más adecuada que pueda aplicarse de manera similar a mi GLM.

generalized-linear-model poisson-distribution r-squared Benjamin Kraus
fuente

¿Por qué no funcionaría un BIC o una prueba de la diferencia en las probabilidades de registro, particularmente porque una es una versión anidada de la otra?

Mike Hunter

Esto es un poco tarde para mis propósitos (el documento fue publicado en línea el miércoles pasado), pero para que conste: estoy usando la diferencia en las probabilidades de registro como la medida principal, pero un revisor quería una medida de "varianza explicada" , así que en interés de apaciguar a los revisores, traté de encontrar algo. Con lo que terminé fue algo como lo que nukimov sugirió a continuación.

Benjamin Kraus

McCullagh y Nelder 1989 (página 34) dan para la función de desviación $D$ para la distribución de Poisson:

D = 2 \sum (y \log (\frac{y}{μ}) + (y - μ))

$D = 2 \sum\left(y \log\left(\frac{y}{\mu} \right) + (y-\mu)\right)$

donde y representa sus datos y $\mu$ su salida modelada Yo uso esta función para estimar la desviación explicada $ED$ de un GLM con distribución de Poisson como este:

E D = 1 - \frac{D}{total deviance}

$ED = 1 - \frac{D}{\text{total deviance}}$

donde la desviación total viene dada por la misma ecuación para $D$ pero usando la media de $y$ (un solo número, es decir, $\mathrm{mean}(y)$ ) en lugar de la matriz de estimaciones modeladas $\mu$ .

No sé si esto es 100% correcto, suena lógico para mí y parece funcionar, ya que esperaría que una estimación de la desviación explicada funcione (le da 1 si usa $\mu = y$ , etc.)

nukimov
fuente

Utilicé la función de desviación como la medida principal para el trabajo, usando exactamente la ecuación que proporcionó anteriormente. Sin embargo, un revisor quería una medida de "varianza explicada", por lo que en interés de apaciguar a los revisores, traté de encontrar algo. Lo que terminé con fue:

p s e u d o R_{M}^{2} = \frac{l n (Γ_{M}) - l n (Γ_{N u l l})}{l n (Γ_{S a t}) - l n (Γ_{N u l l})}

$pseudoR^2_M = \frac{ln(\Gamma_M) - ln(\Gamma_{Null})} {ln(\Gamma_{Sat}) - ln(\Gamma_{Null})}$

l n (Γ_{S a t})

$ln(\Gamma_{Sat})$ es la probabilidad logarítmica de un modelo saturado,

l n (Γ_{N u l l})

$ln(\Gamma_{Null})$ es el log-verosimilitud del modelo nulo, y

l n (Γ_{M})

$ln(\Gamma_{M})$ es la probabilidad logarítmica del modelo en cuestión.

Benjamin Kraus

Medida de la varianza explicada para Poisson GLM (función de enlace de registro)

Respuestas: