Tengo SPSS
salida para un modelo de regresión logística. El resultado informa dos medidas para el ajuste del modelo, Cox & Snell
y Nagelkerke
.
Entonces, como regla general, ¿cuál de estas medidas informaría como el modelo se ajusta?
O, ¿cuál de estos índices de ajuste es el que generalmente se informa en las revistas?
Algunos antecedentes: La regresión intenta predecir la presencia o ausencia de un ave (urogallo) a partir de algunas variables ambientales (p. Ej., Inclinación, cubierta vegetal, ...). Desafortunadamente, el pájaro no apareció con mucha frecuencia (35 aciertos a 468 fallos), por lo que la regresión funciona bastante mal. Cox & Snell es .09, Nagelkerke, .23.
El tema es ciencias ambientales o ecología.
logistic
goodness-of-fit
r-squared
Henrik
fuente
fuente
Respuestas:
Normalmente no informaría en absoluto. Hosmer y Lemeshow, en su libro de texto Regresión logística aplicada (2ª ed.), Explican por qué:R2
[En la p. 164.]
Con respecto a varias versiones ML de , la estadística "pseudo ", mencionan que no es "recomendado para uso rutinario, ya que no es tan fácil de explicar intuitivamente", pero se sienten obligados a describirlo porque los paquetes de software lo informan.R2 R2
Concluyen esta discusión escribiendo:
[En la p. 167.]
Mi experiencia con algunos modelos logísticos grandes (100k a 300k registros, 100 - 300 variables explicativas) ha sido exactamente como H&L describe. Podría lograr relativamente alto con mis datos, hasta aproximadamente 0,40. Estos correspondían a tasas de error de clasificación entre 3% y 15% (falsos negativos y falsos positivos, equilibrados, según se confirmó utilizando conjuntos de datos de 50% de retención) Como H&L insinuó, tuve que pasar mucho tiempo desengañando al cliente (un consultor sofisticado que estaba familiarizado con ) sobre y haciendo que se concentrara en lo que importaba en el análisis (el error de clasificación tarifas). Puedo recomendar calurosamente que describa los resultados de su análisis sin referencia a , que es más probable que induzca a error.R2 R2 R2 R2
fuente
Ambos índices son medidas de la fuerza de asociación (es decir, si algún predictor está asociado con el resultado, como para una prueba LR), y se pueden usar para cuantificar la capacidad predictiva o el rendimiento del modelo. Un solo predictor puede tener un efecto significativo en el resultado, pero puede no ser necesariamente tan útil para predecir la respuesta individual , de ahí la necesidad de evaluar el rendimiento del modelo en su conjunto (wrt. El modelo nulo). El Nagelkerke es útil porque tiene un valor máximo de 1.0, como dijo Srikant. Esta es solo una versión normalizada de calculada a partir de la razón de probabilidad,R2 R2 R2LR=1−exp(−LR/n) , que tiene conexión con la estadística de Wald para la asociación general, según lo propuesto originalmente por Cox y Snell. Otros índices de capacidad predictiva son el puntaje de Brier, el índice C (probabilidad de concordancia o área ROC) o el D de Somers, los dos últimos proporcionan una mejor medida de discriminación predictiva.
Los únicos supuestos hechos en la regresión logística son los de linealidad y aditividad (+ independencia). Aunque se han propuesto muchas pruebas globales de bondad de ajuste (como la prueba Hosmer & Lemeshow , pero vea mi comentario a @onestop), generalmente carecen de poder. Para evaluar el ajuste del modelo, es mejor confiar en criterios visuales (estimaciones estratificadas, suavizado no paramétrico) que ayudan a detectar la desviación local o global entre los resultados pronosticados y observados (por ejemplo, no linealidad o interacción), y esto se detalla en gran medida en el RMS de Harrell folleto . Sobre un tema relacionado (pruebas de calibración), Steyerberg ( Modelos de predicción clínicaχ2 , 2009) señala el mismo enfoque para evaluar el acuerdo entre los resultados observados y las probabilidades pronosticadas:
También sugiere confiar en la diferencia absoluta entre los resultados observados suavizados y las probabilidades pronosticadas, ya sea visualmente o con el llamado estadístico E de Harrell.
Se pueden encontrar más detalles en el libro de Harrell, Estrategias de modelado de regresión (pp. 203-205, 230-244, 247-249). Para una discusión más reciente, vea también
Steyerberg, EW, Vickers, AJ, Cook, NR, Gerds, T, Gonen, M, Obuchowski, N, Pencina, MJ y Kattan, MW (2010). Evaluación del rendimiento de los modelos de predicción, un marco para medidas tradicionales y novedosas . Epidemiología , 21 (1) , 128-138.
fuente
Pensé que el principal problema con cualquier tipo de medida para la regresión logística es que se trata de un modelo que tiene un valor de ruido conocido. Esto es diferente a la regresión lineal estándar, donde el nivel de ruido generalmente se trata como desconocido. Para podemos escribir una función de densidad de probabilidad glm como:R2
Donde Son funciones conocidas, y para la función de enlace inverso . Si definimos los residuales de desviación GLM habituales comob(.), c(.), d(.;.) μi=g−1(xTiβ) g−1(.)
Donde es la dimensión de . Para la regresión logística tenemos , que se conoce. Entonces podemos usar esto para decidir sobre un nivel definido de residuo que sea "aceptable" o "razonable". Esto generalmente no se puede hacer para la regresión OLS (a menos que tenga información previa sobre el ruido). A saber, esperamos que cada desviación residual sea aproximadamente . Demasiados y es probable que falten algunos efectos importantes del modelo (falta de ajuste); demasiados y es probable que haya efectos redundantes o espurios en el modelo (ajuste excesivo). (Esto también podría significar una especificación incorrecta del modelo).p β ϕ=1 1 d2i≫1 d2i≪1
Ahora, esto significa que el problema para el pseudo- es que no tiene en cuenta que el nivel de variación binomial es predecible (siempre que no se cuestione la estructura del error binomial). Por lo tanto, a pesar de que Nagelkerke varía de a , todavía no se escala adecuadamente. Además, no puedo ver por qué estos se llaman pseudo si no son iguales al habitual cuando se ajusta un "GLM" con un enlace de identidad y un error normal. Por ejemplo, el cox-snell R-cuadrado equivalente para el error normal (usando la estimación de varianza REML) viene dado por:R2 0 1 R2 R2
Lo cual ciertamente se ve extraño.
Creo que la mejor medida de "Bondad de ajuste" es la suma de los residuos de desviación, . Esto se debe principalmente a que tenemos un objetivo al que apuntar.χ2
fuente
El breve trabajo de Tue Tjur "Coeficientes de determinación en modelos de regresión logística: una nueva propuesta: el coeficiente de discriminación" (2009, The American Statistician ) sobre varias propuestas para un coeficiente de determinación en modelos logísticos es bastante esclarecedor. Hace un buen trabajo destacando los pros y los contras, y por supuesto ofrece una nueva definición. Muy recomendable (aunque no tengo ningún favorito).
fuente
También iba a decir 'ninguno de ellos', así que voté por la respuesta de Whuber.
Además de criticar R ^ 2, Hosmer & Lemeshow propuso una medida alternativa de bondad de ajuste para la regresión logística que a veces es útil. Esto se basa en dividir los datos en (digamos) 10 grupos de igual tamaño (o lo más cerca posible) ordenando la probabilidad predicha (o equivalente, el predictor lineal) y luego comparando el número observado de respuestas positivas esperadas en cada grupo y realizando una prueba de chi-cuadrado. Esta 'prueba de bondad de ajuste de Hosmer-Lemeshow' se implementa en la mayoría de los paquetes de software estadístico.
fuente
Design
paquete de Frank Harrell presenta la prueba alternativa H&L 1 df.Preferiría el Nagelkerke ya que este modelo alcanza 1 cuando el modelo se adapta perfectamente, lo que le da al lector una idea de cuán lejos está su modelo del ajuste perfecto. Cox & Shell no alcanza 1 para un ajuste perfecto del modelo y, por lo tanto, interpretar un valor de 0.09 es un poco más difícil. Consulte esta url para obtener más información sobre Pseudo RSquared para obtener una explicación de varios tipos de ajustes.
fuente
A pesar de los argumentos en contra del uso de pseudo-r-cuadrados, algunas personas por varias razones querrán continuar usándolos al menos en ciertos momentos. Lo que he internalizado de mis lecturas (y lamento no poder proporcionar citas en este momento) es que
si ambos están por encima de .5, Nag. será; y
si se montan en .5, despeje.
Además, una fórmula cuyos resultados a menudo se encuentran entre estos dos, mencionada por Scott Menard en Análisis de regresión logística aplicada (Sage), es
Esto se denota como "L" en el cuadro a continuación.
fuente