Medida de la varianza explicada para Poisson GLM (función de enlace de registro)

8

Estoy buscando una medida adecuada de la "varianza explicada" de un Poisson GLM (usando una función de enlace de registro).

He encontrado una cantidad de recursos diferentes (tanto en este sitio como en otros lugares) que analizan una serie de diferentes pseudo-R2 medidas, pero casi todos los sitios mencionan las medidas en relación con una función logit-link, y no discuten si el pseudo-R2 las medidas son apropiadas para otras funciones de enlace, como log-link para mi distribución de Poission GLM.

Por ejemplo, aquí hay algunos de los sitios que he encontrado:

¿Qué seudo-R2 ¿Cuál es la medida para reportar la regresión logística (Cox & Snell o Nagelkerke)?

http://thestatsgeek.com/2014/02/08/r-squared-in-logistic-regression/

http://www.ats.ucla.edu/stat/mult_pkg/faq/general/Psuedo_RSquareds.htm

Mi pregunta es: ¿Alguno de los métodos discutidos en esos enlaces (en particular, las preguntas frecuentes en la página de UCLA) son apropiados para un GLM de Poission (usando una función de enlace de registro)? ¿Algún método en particular es más apropiado y / o estándar que cualquier otro método?

Algunos antecedentes:

Esto es para un trabajo de investigación en el que estoy usando un Poission GLM para analizar datos neuronales. Estoy usando los dispositivos de los modelos (calculados suponiendo una distribución de Poission) para comparar dos modelos: Un modelo (A) que incluye 5 parámetros que quedaron fuera del otro modelo (B). Mi interés (y el enfoque del artículo) es mostrar que esos 5 parámetros mejoran estadísticamente el ajuste del modelo. Sin embargo, uno de los revisores quisiera una indicación de qué tan bien ambos modelos se ajustan a los datos.

Si estaba usando OLS para ajustar mis datos, el revisor está solicitando efectivamente el R2valor para el modelo con los 5 parámetros y sin los 5 parámetros, para indicar qué tan bien cada modelo explica la varianza. Me parece una solicitud razonable. Digamos que, hipotéticamente, el modelo B tiene unR2 de 0.05 y el modelo A tiene un R2de 0.25: aunque eso puede ser una mejora estadísticamente significativa, ninguno de los modelos hace un buen trabajo al explicar los datos. Alternativamente, si el modelo B tiene unR2 de 0.5 y el modelo A tiene un R2de 0.7, que podría interpretarse de una manera muy diferente. Estoy buscando la medida más adecuada que pueda aplicarse de manera similar a mi GLM.

Benjamin Kraus
fuente
¿Por qué no funcionaría un BIC o una prueba de la diferencia en las probabilidades de registro, particularmente porque una es una versión anidada de la otra?
Mike Hunter
Esto es un poco tarde para mis propósitos (el documento fue publicado en línea el miércoles pasado), pero para que conste: estoy usando la diferencia en las probabilidades de registro como la medida principal, pero un revisor quería una medida de "varianza explicada" , así que en interés de apaciguar a los revisores, traté de encontrar algo. Con lo que terminé fue algo como lo que nukimov sugirió a continuación.
Benjamin Kraus

Respuestas:

1

McCullagh y Nelder 1989 (página 34) dan para la función de desviación D para la distribución de Poisson:

D=2(ylog(yμ)+(yμ))

donde y representa sus datos y μsu salida modelada Yo uso esta función para estimar la desviación explicadaED de un GLM con distribución de Poisson como este:

ED=1Dtotal deviance

donde la desviación total viene dada por la misma ecuación para D pero usando la media de y (un solo número, es decir, mean(y)) en lugar de la matriz de estimaciones modeladas μ.

No sé si esto es 100% correcto, suena lógico para mí y parece funcionar, ya que esperaría que una estimación de la desviación explicada funcione (le da 1 si usa μ=y, etc.)

nukimov
fuente
1
Utilicé la función de desviación como la medida principal para el trabajo, usando exactamente la ecuación que proporcionó anteriormente. Sin embargo, un revisor quería una medida de "varianza explicada", por lo que en interés de apaciguar a los revisores, traté de encontrar algo. Lo que terminé con fue:
pseudoRM2=ln(ΓM)ln(ΓNull)ln(ΓSat)ln(ΓNull)
ln(ΓSat) es la probabilidad logarítmica de un modelo saturado, ln(ΓNull) es el log-verosimilitud del modelo nulo, y ln(ΓM)es la probabilidad logarítmica del modelo en cuestión.
Benjamin Kraus