Tengo un modelo de regresión logística binaria con un pseudo R cuadrado de McFadden de 0.192 con una variable dependiente llamada pago (1 = pago y 0 = sin pago). ¿Cuál es la interpretación de este pseudo R cuadrado?
¿Es una comparación relativa para modelos anidados (por ejemplo, un modelo de 6 variables tiene un pseudo R cuadrado de McFadden de 0.192, mientras que un modelo de 5 variables (después de eliminar una variable del modelo de 6 variables mencionado anteriormente), este modelo de 5 variables tiene un pseudo R -un cuadrado de 0.131. ¿Desearíamos mantener esa sexta variable en el modelo?) o es una cantidad absoluta (por ejemplo, un modelo dado que tiene un pseudo R cuadrado de McFadden de 0.192 es mejor que cualquier modelo existente con un pseudo de McFadden ¿R cuadrado de 0.180 (incluso para modelos no anidados)? Estas son solo formas posibles de ver el pseudo R cuadrado de McFadden; sin embargo, supongo que estas dos vistas están muy alejadas, por lo que estoy haciendo esta pregunta aquí.
He investigado mucho sobre este tema y aún no he encontrado la respuesta que estoy buscando en términos de poder interpretar el pseudo R cuadrado de McFadden de 0.192. ¡Cualquier idea y / o referencia son muy apreciadas! Antes de responder esta pregunta, soy consciente de que esta no es la mejor medida para describir un modelo de regresión logística, ¡pero me gustaría tener una mejor comprensión de esta estadística de todos modos!
fuente
La R al cuadrado de McFadden se define como 1-l_mod / l_null, donde l_mod es el valor de probabilidad de registro para el modelo ajustado y l_null es la probabilidad de registro para el modelo nulo que incluye solo una intersección como predictor (de modo que cada individuo predice la misma probabilidad del éxito').
Para un modelo de regresión logística, el valor de probabilidad de registro es siempre negativo (porque la contribución de probabilidad de cada observación es una probabilidad entre 0 y 1). Si su modelo realmente no predice el resultado mejor que el modelo nulo, l_mod no será mucho más grande que l_null, por lo que l_mod / l_null es aproximadamente 1, y la R al cuadrado de McFadden está cerca de 0 (su modelo no tiene valor predictivo) .
Por el contrario, si su modelo fue realmente bueno, aquellos individuos con un resultado exitoso (1) tendrían una probabilidad ajustada cercana a 1, y viceversa para aquellos con un resultado fallido (0). En este caso, si realiza el cálculo de probabilidad, la contribución de probabilidad de cada individuo para su modelo será cercana a cero, de modo que l_mod esté cerca de cero y la R al cuadrado de McFadden esté cerca de 1, lo que indica una capacidad predictiva muy buena.
En cuanto a lo que puede considerarse un buen valor, mi opinión personal es que, al igual que preguntas similares en estadística (por ejemplo, ¿qué constituye una gran correlación?), ¿Es que nunca puede ser una respuesta definitiva? El año pasado escribí una publicación de blog sobre R cuadrado de McFadden en regresión logística, que tiene algunas ilustraciones de simulación adicionales.
fuente
Investigué un poco más sobre este tema y descubrí que las interpretaciones del pseudo R cuadrado de McFadden (también conocido como índice de probabilidad) no son claras; sin embargo, puede variar de 0 a 1, pero nunca alcanzará o excederá 1 como resultado de su cálculo.
Una regla general que me pareció bastante útil es que el pseudo R cuadrado de McFadden que varía de 0.2 a 0.4 indica un muy buen ajuste del modelo. Como tal, el modelo mencionado anteriormente con un pseudo R cuadrado de McFadden de 0.192 probablemente no sea un modelo terrible, al menos según esta métrica, pero tampoco es particularmente fuerte.
También es importante tener en cuenta que el pseudo R cuadrado de McFadden se usa mejor para comparar diferentes especificaciones del mismo modelo (es decir, modelos anidados). En referencia al ejemplo mencionado anteriormente, el modelo de 6 variables (pseudo R cuadrado de McFadden = 0.192) se ajusta mejor a los datos que el modelo de 5 variables (pseudo R cuadrado de McFadden = 0.131), que probé formalmente usando una prueba de relación de probabilidad de registro , lo que indica que hay una diferencia significativa ( p <0.001) entre los dos modelos y, por lo tanto, se prefiere el modelo de 6 variables para el conjunto de datos dado.
fuente
http://cowles.yale.edu/sites/default/files/files/pub/d04/d0474.pdf
fuente