Interpretación Pseudo-R2 de McFadden

29

Tengo un modelo de regresión logística binaria con un pseudo R cuadrado de McFadden de 0.192 con una variable dependiente llamada pago (1 = pago y 0 = sin pago). ¿Cuál es la interpretación de este pseudo R cuadrado?

¿Es una comparación relativa para modelos anidados (por ejemplo, un modelo de 6 variables tiene un pseudo R cuadrado de McFadden de 0.192, mientras que un modelo de 5 variables (después de eliminar una variable del modelo de 6 variables mencionado anteriormente), este modelo de 5 variables tiene un pseudo R -un cuadrado de 0.131. ¿Desearíamos mantener esa sexta variable en el modelo?) o es una cantidad absoluta (por ejemplo, un modelo dado que tiene un pseudo R cuadrado de McFadden de 0.192 es mejor que cualquier modelo existente con un pseudo de McFadden ¿R cuadrado de 0.180 (incluso para modelos no anidados)? Estas son solo formas posibles de ver el pseudo R cuadrado de McFadden; sin embargo, supongo que estas dos vistas están muy alejadas, por lo que estoy haciendo esta pregunta aquí.

He investigado mucho sobre este tema y aún no he encontrado la respuesta que estoy buscando en términos de poder interpretar el pseudo R cuadrado de McFadden de 0.192. ¡Cualquier idea y / o referencia son muy apreciadas! Antes de responder esta pregunta, soy consciente de que esta no es la mejor medida para describir un modelo de regresión logística, ¡pero me gustaría tener una mejor comprensión de esta estadística de todos modos!

Matt Reichenbach
fuente

Respuestas:

34

Así que pensé que resumiría lo que aprendí sobre el pseudo R2 de McFadden como una respuesta adecuada.

La referencia fundamental que puedo ver para el pseudo R2 de McFadden es: McFadden, D. (1974) "Análisis logit condicional del comportamiento de elección cualitativa". Pp. 105-142 en P. Zarembka (ed.), Frontiers in Econometrics. Prensa Académica http://eml.berkeley.edu/~mcfadden/travel.html La figura 5.5 muestra la relación entre las medidas rho-cuadrado y las medidas R2 tradicionales de OLS. Mi interpretación es que los valores más grandes de rho-cuadrado (pseudo R2 de McFadden) son mejores que los más pequeños.

La interpretación del pseudo R2 de McFadden entre 0.2-0.4 proviene de un capítulo del libro en el que contribuyó: Bahvioural Travel Modeling. Editado por David Hensher y Peter Stopher. 1979. McFadden contribuyó con Ch. 15 "Métodos cuantitativos para analizar el comportamiento del viaje en individuos: algunos desarrollos recientes". La discusión de la evaluación del modelo (en el contexto de los modelos logit multinomiales) comienza en la página 306, donde introduce el rho cuadrado (pseudo R2 de McFadden). McFadden afirma que "aunque el índice R2 es un concepto más familiar para el planificador con experiencia en OLS, no se comporta tan bien como la medida rho-cuadrado, para la estimación de ML. Aquellos que no estén familiarizados con rho-cuadrado deberían advertir que sus valores tienden ser considerablemente más bajo que los del índice R2 ... Por ejemplo, los valores de 0.2 a 0.4 para rho-cuadrado representan un ajuste EXCELENTE.

Básicamente, el rho-cuadrado se puede interpretar como R2, pero no esperes que sea tan grande. Y los valores de 0.2-0.4 indican (en palabras de McFadden) un excelente ajuste del modelo.

Chris
fuente
Buen resumen, Chris. ¡Gracias por tus esfuerzos!
Matt Reichenbach
Llegué tarde a la discusión, pero dejaré este enlace donde explican el R2 MacFadden en comparación con otras medidas de ajuste: statisticshorizons.com/r2logistic
sergiouribe hace
13

La R al cuadrado de McFadden se define como 1-l_mod / l_null, donde l_mod es el valor de probabilidad de registro para el modelo ajustado y l_null es la probabilidad de registro para el modelo nulo que incluye solo una intersección como predictor (de modo que cada individuo predice la misma probabilidad del éxito').

Para un modelo de regresión logística, el valor de probabilidad de registro es siempre negativo (porque la contribución de probabilidad de cada observación es una probabilidad entre 0 y 1). Si su modelo realmente no predice el resultado mejor que el modelo nulo, l_mod no será mucho más grande que l_null, por lo que l_mod / l_null es aproximadamente 1, y la R al cuadrado de McFadden está cerca de 0 (su modelo no tiene valor predictivo) .

Por el contrario, si su modelo fue realmente bueno, aquellos individuos con un resultado exitoso (1) tendrían una probabilidad ajustada cercana a 1, y viceversa para aquellos con un resultado fallido (0). En este caso, si realiza el cálculo de probabilidad, la contribución de probabilidad de cada individuo para su modelo será cercana a cero, de modo que l_mod esté cerca de cero y la R al cuadrado de McFadden esté cerca de 1, lo que indica una capacidad predictiva muy buena.

En cuanto a lo que puede considerarse un buen valor, mi opinión personal es que, al igual que preguntas similares en estadística (por ejemplo, ¿qué constituye una gran correlación?), ¿Es que nunca puede ser una respuesta definitiva? El año pasado escribí una publicación de blog sobre R cuadrado de McFadden en regresión logística, que tiene algunas ilustraciones de simulación adicionales.

Jonathan Bartlett
fuente
5

Investigué un poco más sobre este tema y descubrí que las interpretaciones del pseudo R cuadrado de McFadden (también conocido como índice de probabilidad) no son claras; sin embargo, puede variar de 0 a 1, pero nunca alcanzará o excederá 1 como resultado de su cálculo.

Una regla general que me pareció bastante útil es que el pseudo R cuadrado de McFadden que varía de 0.2 a 0.4 indica un muy buen ajuste del modelo. Como tal, el modelo mencionado anteriormente con un pseudo R cuadrado de McFadden de 0.192 probablemente no sea un modelo terrible, al menos según esta métrica, pero tampoco es particularmente fuerte.

También es importante tener en cuenta que el pseudo R cuadrado de McFadden se usa mejor para comparar diferentes especificaciones del mismo modelo (es decir, modelos anidados). En referencia al ejemplo mencionado anteriormente, el modelo de 6 variables (pseudo R cuadrado de McFadden = 0.192) se ajusta mejor a los datos que el modelo de 5 variables (pseudo R cuadrado de McFadden = 0.131), que probé formalmente usando una prueba de relación de probabilidad de registro , lo que indica que hay una diferencia significativa ( p <0.001) entre los dos modelos y, por lo tanto, se prefiere el modelo de 6 variables para el conjunto de datos dado.

Matt Reichenbach
fuente
1
¿Cuál es la referencia que encontró que afirma que el R2 de McFadden entre 0.2 y 0.4 es un ajuste "muy bueno"?
Chris
Por cierto ... aquí hay una referencia y un enlace al artículo original de McFadden donde define su medida pseudo-R2. McFadden, D. (1974) "Análisis logit condicional del comportamiento de elección cualitativa". Pp. 105-142 en P. Zarembka (ed.), Frontiers in Econometrics. Prensa Académica elsa.berkeley.edu/reprints/mcfadden/zarembka.pdf
Chris
1
Gracias por las referencias. Parece que gran parte del trabajo de McFadden se puede encontrar en su sitio web de Berkeley. A continuación hay un enlace al libro completo que cita arriba: elsa.berkeley.edu/users/mcfadden/travel.html Todos los capítulos aparecen en PDF. Rho-cuadrado (pseudo R2 de McFadden) se menciona en el Capítulo 5. Páginas 122 en adelante (ver la ecuación 5.33 y el gráfico que sigue inmediatamente después). No veo ninguna mención de 0.2-0.4 = "Ajuste del modelo VG". Seguiré buscando la apariencia seminal de esta "regla de oro". ¡Gracias por tu ayuda!
Chris
1
¡No hay problema! Agradezco tu curiosidad y minuciosidad. La frase exacta se puede encontrar en lifesciencesite.com/lsj/life1002/… , donde los autores declaran "Una bondad de ajuste usando el pseudo r cuadrado de McFadden (ρ2) se utiliza para ajustar el modelo general. McFadden sugirió que ρ2 valores de entre 0.2 y 0.4 deben tomarse para representar un muy buen ajuste del modelo (Louviere et al., 2000) ".
Matt Reichenbach
44
Mi institución tiene una copia electrónica de Louviere et al (2000). "Métodos de elección declarada: análisis y aplicaciones". Prensa de la Universidad de Cambridge. Esta es la referencia que Lee (Life Science Journal) cita para rho-cuadrado en {0.2-0.4} = "VG fit". En la página 55 de Louviere (asociada con la ecuación 3.32) vemos la siguiente cita: "Los valores de rho-cuadrado entre 0.2-0.4 se consideran indicativos de ajustes de modelo extremadamente buenos. Simulaciones de Domenich y McFadden (1975) equivalencia de este rango a 0.7 a 0.9 para una función lineal ".
Chris