¿Qué medida de pseudo es la que se debe informar para la regresión logística (Cox & Snell o Nagelkerke)?

55

Tengo SPSSsalida para un modelo de regresión logística. El resultado informa dos medidas para el ajuste del modelo, Cox & Snelly Nagelkerke.

Entonces, como regla general, ¿cuál de estas medidas $R^²$ informaría como el modelo se ajusta?

O, ¿cuál de estos índices de ajuste es el que generalmente se informa en las revistas?

Algunos antecedentes: La regresión intenta predecir la presencia o ausencia de un ave (urogallo) a partir de algunas variables ambientales (p. Ej., Inclinación, cubierta vegetal, ...). Desafortunadamente, el pájaro no apareció con mucha frecuencia (35 aciertos a 468 fallos), por lo que la regresión funciona bastante mal. Cox & Snell es .09, Nagelkerke, .23.

El tema es ciencias ambientales o ecología.

logistic goodness-of-fit r-squared Henrik
fuente

3

El excelente sitio de ayuda de estadísticas de UCLA tiene una excelente página que explica los diversos pseudo-

R^{2}

$R^2$ 's y cómo se relacionan entre sí.

gung - Restablece a Monica

Aquí hay dos enlaces que analizan un algoritmo no paramétrico exacto que maximiza la precisión de los modelos de regresión logística. Si utiliza este método con sus datos, aumentará el rendimiento de clasificación de su modelo de regresión logística cuando se aplique a la muestra. Ejemplo 1: onlinelibrary.wiley.com/doi/10.1111/j.1540-5915.1991.tb01912.x/… Ejemplo 2: epm.sagepub.com/content/54/1/73.abstract

user31256

1

Nuevo enlace de UCLA: stats.idre.ucla.edu/other/mult-pkg/faq/general/…

Aaron - Restablece a Monica el

74

Normalmente no informaría en absoluto. Hosmer y Lemeshow, en su libro de texto Regresión logística aplicada (2ª ed.), Explican por qué: $R^2$

En general, [las medidas de ] se basan en varias comparaciones de los valores pronosticados del modelo ajustado con los del [modelo base], el modelo sin datos o solo de intercepción y, como resultado, no evalúan la bondad de -ajuste. Creemos que una medida real de ajuste se basa estrictamente en una comparación de los valores observados con los pronosticados del modelo ajustado. $R^2$

[En la p. 164.]

Con respecto a varias versiones ML de , la estadística "pseudo ", mencionan que no es "recomendado para uso rutinario, ya que no es tan fácil de explicar intuitivamente", pero se sienten obligados a describirlo porque los paquetes de software lo informan. $R^2$ $R^2$

Concluyen esta discusión escribiendo:

... los valores bajos de en la regresión logística son la norma y esto presenta un problema al informar sus valores a una audiencia acostumbrada a ver valores de regresión lineal. ... Por lo tanto [argumentando por referencia a la ejecución de ejemplos en el texto], no recomendamos la publicación rutinaria de valores con resultados de modelos logísticos ajustados. Sin embargo, pueden ser útiles en el estado de construcción de modelos como estadística para evaluar modelos competidores. $R^2$ $R^2$

[En la p. 167.]

Mi experiencia con algunos modelos logísticos grandes (100k a 300k registros, 100 - 300 variables explicativas) ha sido exactamente como H&L describe. Podría lograr relativamente alto con mis datos, hasta aproximadamente 0,40. Estos correspondían a tasas de error de clasificación entre 3% y 15% (falsos negativos y falsos positivos, equilibrados, según se confirmó utilizando conjuntos de datos de 50% de retención) Como H&L insinuó, tuve que pasar mucho tiempo desengañando al cliente (un consultor sofisticado que estaba familiarizado con ) sobre y haciendo que se concentrara en lo que importaba en el análisis (el error de clasificación tarifas). Puedo recomendar calurosamente que describa los resultados de su análisis sin referencia a , que es más probable que induzca a error. $R^2$ $R^2$ $R^2$ $R^2$

whuber
fuente

1

(+1) Inicialmente estaba pensando en expandir mi respuesta (que vino justo después de la suya), pero definitivamente su respuesta es autosuficiente.

chl

gracias por esto, útil para un proyecto en el que estoy trabajando actualmente, y tiene mucho sentido.

Brandon Bertelsen

1

@whuber: También tiendo a gravitar hacia el clasif correcto. tasas, pero he visto numerosas referencias en libros de texto y sitios web que advierten a los analistas que no confíen en ellos y enfatizan que pseudo-rsq, a pesar de sus limitaciones, es una métrica más justa. A menudo leo algo que parece confirmado hasta cierto punto en mis propios análisis: que con la adición de un predictor dado, pseudo-rsq podría aumentar (y otras métricas indicarán un beneficio de la adición) mientras que la tasa de clasificación correcta falla, y que uno no debe confiar en lo último. ¿Has pensado en esto?

rolando2

44

@ rolando2 Sí, tengo. Esto plantea la pregunta de cuánto debería subir el pseudo- para justificar la inclusión de variables. Sospecho que su "tasa de clasificación correcta" puede referirse a la tasa en la muestra , que por supuesto está sesgada. Si eso es correcto, lo que lees simplemente compara dos estadísticas inferiores. La frecuencia fuera de la muestra es un indicador mucho más útil que el pseudo- .

R^{2}

$R^2$

R^{2}

$R^2$

whuber

1

+1. Además, para ampliar una parte sutil de su respuesta, menciona las tasas de error de clasificación , que es plural y no debe confundirse con la precisión . Hay muchos tipos diferentes de cálculos que pueden surgir de una matriz de confusión ( precisión , tasa de falsos positivos , precisión , etc.) y cuál nos importa depende de la aplicación. Además, hace la distinción de fuera de muestra , que es distinta de la validación cruzada , pero a veces se confunde con ella.

Wayne

27

Ambos índices son medidas de la fuerza de asociación (es decir, si algún predictor está asociado con el resultado, como para una prueba LR), y se pueden usar para cuantificar la capacidad predictiva o el rendimiento del modelo. Un solo predictor puede tener un efecto significativo en el resultado, pero puede no ser necesariamente tan útil para predecir la respuesta individual , de ahí la necesidad de evaluar el rendimiento del modelo en su conjunto (wrt. El modelo nulo). El Nagelkerke es útil porque tiene un valor máximo de 1.0, como dijo Srikant. Esta es solo una versión normalizada de calculada a partir de la razón de probabilidad, $R^2$ $R^2$ $R^2_{\text{LR}}=1-\exp(-\text{LR}/n)$ , que tiene conexión con la estadística de Wald para la asociación general, según lo propuesto originalmente por Cox y Snell. Otros índices de capacidad predictiva son el puntaje de Brier, el índice C (probabilidad de concordancia o área ROC) o el D de Somers, los dos últimos proporcionan una mejor medida de discriminación predictiva.

Los únicos supuestos hechos en la regresión logística son los de linealidad y aditividad (+ independencia). Aunque se han propuesto muchas pruebas globales de bondad de ajuste (como la prueba Hosmer & Lemeshow , pero vea mi comentario a @onestop), generalmente carecen de poder. Para evaluar el ajuste del modelo, es mejor confiar en criterios visuales (estimaciones estratificadas, suavizado no paramétrico) que ayudan a detectar la desviación local o global entre los resultados pronosticados y observados (por ejemplo, no linealidad o interacción), y esto se detalla en gran medida en el RMS de Harrell folleto . Sobre un tema relacionado (pruebas de calibración), Steyerberg ( Modelos de predicción clínica $\chi^2$ , 2009) señala el mismo enfoque para evaluar el acuerdo entre los resultados observados y las probabilidades pronosticadas:

La calibración está relacionada con la bondad de ajuste, que se relaciona con la capacidad de un modelo para ajustarse a un conjunto de datos dado. Por lo general, no existe una prueba única de bondad de ajuste que tenga un buen poder contra todo tipo de falta de ajuste de un modelo de predicción. Ejemplos de falta de ajuste son las no linealidades perdidas, las interacciones o una función de enlace inapropiada entre el predictor lineal y el resultado. La bondad de ajuste se puede probar con una estadística . (pág. 274) $\chi^2$

También sugiere confiar en la diferencia absoluta entre los resultados observados suavizados y las probabilidades pronosticadas, ya sea visualmente o con el llamado estadístico E de Harrell.

Se pueden encontrar más detalles en el libro de Harrell, Estrategias de modelado de regresión (pp. 203-205, 230-244, 247-249). Para una discusión más reciente, vea también

Steyerberg, EW, Vickers, AJ, Cook, NR, Gerds, T, Gonen, M, Obuchowski, N, Pencina, MJ y Kattan, MW (2010). Evaluación del rendimiento de los modelos de predicción, un marco para medidas tradicionales y novedosas . Epidemiología , 21 (1) , 128-138.

chl
fuente

¿Podría explicar la distinción entre "bondad de ajuste" y la fuerza de asociación o capacidad predictiva?

Andy W

@ Andy Gracias por señalar eso. Después me doy cuenta de que mi primera oración no suena bien. Actualizaré mi respuesta, por favor avíseme si está bien con usted.

chl

Gracias por la actualización y aclara la distinción.

Andy W

21

Pensé que el principal problema con cualquier tipo de medida para la regresión logística es que se trata de un modelo que tiene un valor de ruido conocido. Esto es diferente a la regresión lineal estándar, donde el nivel de ruido generalmente se trata como desconocido. Para podemos escribir una función de densidad de probabilidad glm como: $R^2$

f (y_{i} | μ_{i}, ϕ) = \exp (\frac{y_{i} b (μ_{i}) - c (μ_{i})}{ϕ} + d (y_{i}, ϕ))

$f(y_i|\mu_i,\phi)=\exp\left(\frac{y_ib(\mu_i)-c(\mu_i)}{\phi}+d(y_i,\phi)\right)$

Donde Son funciones conocidas, y para la función de enlace inverso . Si definimos los residuales de desviación GLM habituales como $b(.),\ c(.),\ d(.;.)$ $\mu_i=g^{-1}(x_i^T\beta)$ $g^{-1}(.)$

\begin{aligned} d_{i}^{2} & = 2 ϕ (\log [f (y_{i} | μ_{i} = y_{i}, ϕ)] - \log [f (y_{i} | μ_{i} = {\hat{μ}}_{i}, ϕ)]) \\ = 2 ϕ [y_{i} b (y_{i}) - y_{i} b ({\hat{μ}}_{i}) - c (y_{i}) + c ({\hat{μ}}_{i})] \end{aligned}

$\begin{align} d_i^2 &= 2\phi\left(\log[f(y_i|\mu_i=y_i,\phi)]-\log[f(y_i|\mu_i=\hat{\mu}_i,\phi)]\right) \\ &= 2\phi \left[y_ib(y_i)-y_ib(\hat{\mu}_i)-c(y_i)+c(\hat{\mu}_i)\right] \end{align}$ El que tenemos (por razón de probabilidad chi-cuadrado, )

χ^{2} = \frac{1}{ϕ} \sum_{i = 1}^{N} d_{i}^{2}

$\chi^2=\frac{1}{\phi}\sum_{i=1}^{N}d_i^2$

E (\sum_{i = 1}^{N} d_{i}^{2}) = E (ϕ χ^{2}) \approx (N - p) ϕ

$E\left(\sum_{i=1}^{N}d_i^2\right)=E(\phi\chi^2)\approx (N-p)\phi$

Donde es la dimensión de . Para la regresión logística tenemos , que se conoce. Entonces podemos usar esto para decidir sobre un nivel definido de residuo que sea "aceptable" o "razonable". Esto generalmente no se puede hacer para la regresión OLS (a menos que tenga información previa sobre el ruido). A saber, esperamos que cada desviación residual sea aproximadamente . Demasiados y es probable que falten algunos efectos importantes del modelo (falta de ajuste); demasiados y es probable que haya efectos redundantes o espurios en el modelo (ajuste excesivo). (Esto también podría significar una especificación incorrecta del modelo). $p$ $\beta$ $\phi=1$ $1$ $d_i^2\gg1$ $d_i^2\ll1$

Ahora, esto significa que el problema para el pseudo- es que no tiene en cuenta que el nivel de variación binomial es predecible (siempre que no se cuestione la estructura del error binomial). Por lo tanto, a pesar de que Nagelkerke varía de a , todavía no se escala adecuadamente. Además, no puedo ver por qué estos se llaman pseudo si no son iguales al habitual cuando se ajusta un "GLM" con un enlace de identidad y un error normal. Por ejemplo, el cox-snell R-cuadrado equivalente para el error normal (usando la estimación de varianza REML) viene dado por: $R^2$ $0$ $1$ $R^2$ $R^2$

R_{C S}^{2} = 1 - \exp (- \frac{N - p}{N} \cdot \frac{R_{O L S}^{2}}{1 - R_{O L S}^{2}})

$R^2_{CS}=1-\exp\left(-\frac{N-p}{N}\cdot \frac{R^2_{OLS}}{1-R^2_{OLS}}\right)$

Lo cual ciertamente se ve extraño.

Creo que la mejor medida de "Bondad de ajuste" es la suma de los residuos de desviación, . Esto se debe principalmente a que tenemos un objetivo al que apuntar. $\chi^2$

probabilidadislogica
fuente

+1 Buena exposición de los problemas insinuados en los comentarios que siguen a la respuesta de Srikant .

whuber

Dado que un GLM binomial se ajustaría utilizando mínimos cuadrados repesados de forma iterativa, ¿por qué uno como medida de la calidad del ajuste no puede informar el R2 del ajuste de mínimos cuadrados ponderados de la última iteración IRLS con la que se ajustó el GLM? Como en stats.stackexchange.com/questions/412580/… ?

Tom Wenseleers

16

El breve trabajo de Tue Tjur "Coeficientes de determinación en modelos de regresión logística: una nueva propuesta: el coeficiente de discriminación" (2009, The American Statistician ) sobre varias propuestas para un coeficiente de determinación en modelos logísticos es bastante esclarecedor. Hace un buen trabajo destacando los pros y los contras, y por supuesto ofrece una nueva definición. Muy recomendable (aunque no tengo ningún favorito).

S. Kolassa - Restablece a Monica
fuente

1

Gracias por señalar ese papel; de alguna manera lo extrañé (¡y apareció cuando estaba en medio de un gran proyecto de regresión logística!).

whuber

3

Para el registro, esta nueva definición es , que es el valor medio previsto para las respuestas menos el valor medio previsto para las respuestas. Puede variar de a . Tjur no descarta la Nagelkerke seudo , pero sugiere que carece de la "atractivo intuitivo" que gozan .

D = {\bar{\hat{π}}}_{1} - {\bar{\hat{π}}}_{0}

$D=\bar{\hat\pi}_1 - \bar{\hat\pi}_0$

1

$1$

0

$0$

0

$0$

1

$1$

R^{2}

$R^2$

D

$D$

whuber

8

También iba a decir 'ninguno de ellos', así que voté por la respuesta de Whuber.

Además de criticar R ^ 2, Hosmer & Lemeshow propuso una medida alternativa de bondad de ajuste para la regresión logística que a veces es útil. Esto se basa en dividir los datos en (digamos) 10 grupos de igual tamaño (o lo más cerca posible) ordenando la probabilidad predicha (o equivalente, el predictor lineal) y luego comparando el número observado de respuestas positivas esperadas en cada grupo y realizando una prueba de chi-cuadrado. Esta 'prueba de bondad de ajuste de Hosmer-Lemeshow' se implementa en la mayoría de los paquetes de software estadístico.

una parada
fuente

3

La original HL GoF no es muy poderosa porque depende de categorizar la escala de predicción continua en un número arbitrario de grupos; H&L propuso considerar el decil, pero obviamente depende del tamaño de la muestra, y en algunas circunstancias (p. Ej., Modelos IRT), a menudo tiene muy pocas personas en uno o ambos extremos de la escala, de modo que los puntos de corte estén espaciados de manera desigual. Consulte una comparación de pruebas de bondad de ajuste para el modelo de regresión logística, Stat. Medicina. 1997 16 (9): 965, j.mp/aV2W6I

χ^{2}

$\chi^2$

chl

Gracias chi, es una referencia útil, aunque tu enlace j.mp me llevó a un indicador de inicio de sesión de BiblioInserm. Aquí hay un enlace basado en doi: dx.doi.org/10.1002/…

onestop

Perdón por el enlace incorrecto ... Me parece recordar que el Designpaquete de Frank Harrell presenta la prueba alternativa H&L 1 df.

chl

3

Preferiría el Nagelkerke ya que este modelo alcanza 1 cuando el modelo se adapta perfectamente, lo que le da al lector una idea de cuán lejos está su modelo del ajuste perfecto. Cox & Shell no alcanza 1 para un ajuste perfecto del modelo y, por lo tanto, interpretar un valor de 0.09 es un poco más difícil. Consulte esta url para obtener más información sobre Pseudo RSquared para obtener una explicación de varios tipos de ajustes.

fuente

8

Un "ajuste perfecto" está tan lejos de ser posible en cualquier regresión logística realista que parece injusto usarlo como referencia o estándar.

whuber

1

@whuber Es cierto, pero podría usar el estándar para comparar el rendimiento relativo de dos modelos competidores. Sus puntos de bajo R ^ 2 en su respuesta y sus implicaciones son buenos puntos, pero si tiene (p. Ej., Los revisores lo exigen, etc.) usar alguna forma de R ^ 2, entonces es preferible Nagelkerke.

1

@Skridant Sí, sigue siendo el problema de los revisores que quieren ver y la corrección de Bonferroni en todas partes ...

R^{2}

$R^2$

chl

@Srikant, @chl: una lectura cínica de este hilo sugeriría simplemente elegir el R ^ 2 más grande entre todos los que informa el software ;-).

whuber

2

@chl Por supuesto, es necesario ofrecer retroceso a los revisores / clientes, pero a veces también tenemos que ser pragmáticos. Si los lectores no interpretan mal el bajo R ^ 2 como falta de rendimiento adecuado del modelo, entonces los problemas planteados por @whuber se mitigarán en cierta medida.

3

A pesar de los argumentos en contra del uso de pseudo-r-cuadrados, algunas personas por varias razones querrán continuar usándolos al menos en ciertos momentos. Lo que he internalizado de mis lecturas (y lamento no poder proporcionar citas en este momento) es que

si tanto C&S como Nag. están por debajo de .5, C&S será un mejor indicador;
si ambos están por encima de .5, Nag. será; y
si se montan en .5, despeje.

Además, una fórmula cuyos resultados a menudo se encuentran entre estos dos, mencionada por Scott Menard en Análisis de regresión logística aplicada (Sage), es

[-2LL0 - (-2LL1)]/-2LL0.

Esto se denota como "L" en el cuadro a continuación.

ingrese la descripción de la imagen aquí

rolando2
fuente

¿Qué muestra esta imagen (qué significa el eje horizontal)? Además, ¿en qué se diferencia exactamente la última fórmula (que parece una estadística de razón de probabilidad escalada) de Nagelkerke ?

R^{2}

$R^2$

chl

Análisis #: Intenté varios análisis con diferentes conjuntos de datos. No tengo la fórmula de Nagelkerke a mano, pero apuesto a que está disponible.

rolando2

Paul Allison cubre la fórmula de Nagelkerke, que es una fórmula de Cox y Snell ajustada al alza, en statisticshorizons.com/2013/02 . Después de leer ese blog, y en general en los 2-3 años transcurridos desde que se llevó a cabo la mayor parte de esta discusión, estoy más convencido de que los subestimados de Cox & Snell explicaron la variación y que estoy mejor promediando C & S y el resultado de Nagelkerke.

rolando2

¿Qué medida de pseudo es la que se debe informar para la regresión logística (Cox & Snell o Nagelkerke)?

Respuestas: