Evaluación de la regresión logística y la interpretación de Hosmer-Lemeshow Goodness of Fit

24

Como todos sabemos, hay 2 métodos para evaluar el modelo de regresión logística y están probando cosas muy diferentes.

  1. Poder de predicción:

    Obtenga una estadística que mida qué tan bien puede predecir la variable dependiente en función de las variables independientes. Los conocidos Pseudo R ^ 2 son McFadden (1974) y Cox y Snell (1989).

  2. Estadísticas de bondad de ajuste

    La prueba indica si podría hacerlo aún mejor al hacer que el modelo sea más complicado, que en realidad está probando si hay no linealidades o interacciones.

    Implementé ambas pruebas en mi modelo, que ya agregaba interacción cuadrática
    :

    >summary(spec_q2)
    
    Call:
    glm(formula = result ~ Top + Right + Left + Bottom + I(Top^2) + 
     I(Left^2) + I(Bottom^2) + Top:Right + Top:Bottom + Right:Left, 
     family = binomial())
    
     Coefficients:
                 Estimate Std. Error z value Pr(>|z|)    
    (Intercept)  0.955431   8.838584   0.108   0.9139    
    Top          0.311891   0.189793   1.643   0.1003    
    Right       -1.015460   0.502736  -2.020   0.0434 *  
    Left        -0.962143   0.431534  -2.230   0.0258 *  
    Bottom       0.198631   0.157242   1.263   0.2065    
    I(Top^2)    -0.003213   0.002114  -1.520   0.1285    
    I(Left^2)   -0.054258   0.008768  -6.188 6.09e-10 ***
    I(Bottom^2)  0.003725   0.001782   2.091   0.0366 *  
    Top:Right    0.012290   0.007540   1.630   0.1031    
    Top:Bottom   0.004536   0.002880   1.575   0.1153    
    Right:Left  -0.044283   0.015983  -2.771   0.0056 ** 
    ---
    Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1
    (Dispersion parameter for binomial family taken to be 1)
    Null deviance: 3350.3  on 2799  degrees of freedom
    Residual deviance: 1984.6  on 2789  degrees of freedom
    AIC: 2006.6
    

y el poder predicho es el siguiente, el MaFadden es 0.4004, y el valor entre 0.2 ~ 0.4 debe considerarse para presentar un ajuste muy bueno del modelo (Louviere et al (2000), Domenich y McFadden (1975)):

 > PseudoR2(spec_q2)
    McFadden     Adj.McFadden        Cox.Snell       Nagelkerke McKelvey.Zavoina           Effron            Count        Adj.Count 
   0.4076315        0.4004680        0.3859918        0.5531859        0.6144487        0.4616466        0.8489286        0.4712500 
         AIC    Corrected.AIC 
2006.6179010     2006.7125925 

y las estadísticas de bondad de ajuste:

 > hoslem.test(result,phat,g=8)

     Hosmer and Lemeshow goodness of fit (GOF) test

  data:  result, phat
  X-squared = 2800, df = 6, p-value < 2.2e-16

Según tengo entendido, GOF está probando la siguiente hipótesis nula y alternativa:

  H0: The models does not need interaction and non-linearity
  H1: The models needs interaction and non-linearity

Como mis modelos agregaron interacción, la no linealidad ya y el valor p muestra que H0 debe ser rechazado, por lo que llegué a la conclusión de que mi modelo necesita interacción, de hecho no linealidad. Espero que mi interpretación sea correcta y gracias por cualquier consejo de antemano, gracias.

Samoth
fuente
2
Es mejor mirar la tabla subyacente que el valor p para la prueba HL. Y también en las parcelas de los residuos de su modelo. Esto mostrará dónde está el problema.
probabilityislogic

Respuestas:

26

Hay varios problemas que abordar.

  • R2 medidas por sí mismas nunca miden la bondad de ajuste; miden principalmente la discriminación predictiva. La bondad de ajuste solo proviene de comparar con el de un modelo más ricoR2R2
  • La prueba de Hosmer-Lemeshow es para un error de calibración general, no para una falta particular de ajuste, como los efectos cuadráticos. No tiene en cuenta adecuadamente el sobreajuste, es arbitrario elegir los contenedores y el método de cálculo de cuantiles, y a menudo tiene un poder demasiado bajo.
  • Por estas razones, la prueba de Hosmer-Lemeshow ya no se recomienda. Hosmer et al tienen una mejor prueba de ajuste df omnibus, implementada en la función del rmspaquete R.residuals.lrm
  • Para su caso, la bondad de ajuste se puede evaluar mediante la prueba conjunta (en una prueba "fragmentaria") de la contribución de todos los términos cuadrados y de interacción.
  • Pero recomiendo especificar el modelo para que sea más probable que se ajuste por adelantado (especialmente con respecto a los supuestos de linealidad relajantes usando splines de regresión) y usar el bootstrap para estimar el sobreajuste y obtener una curva de calibración suave de alta resolución corregida por sobreajuste para verificar absoluto exactitud. Estos se hacen usando el rmspaquete R.

Sobre el último punto, prefiero la filosofía de que los modelos sean flexibles (de todos modos, limitados por el tamaño de la muestra) y que nos concentremos más en el "ajuste" que en la "falta de ajuste".

Frank Harrell
fuente
2
Solo una cosa: la mayoría medidas de comparan el modelo ajustado con un "modelo perfecto" que obtiene la predicción correcta para cada registro, sin hacer un ajuste df / sobreajuste. +1 de mi parte R2
probabilityislogic
Sí, es solo que nunca esperamos ser perfectos, así que no llamaría falta de ajuste. 1-R2
Frank Harrell
4

De Wikipedia :

La prueba evalúa si las tasas de eventos observadas coinciden o no con las tasas de eventos esperadas en los subgrupos de la población modelo. La prueba de Hosmer-Lemeshow identifica específicamente los subgrupos como los deciles de los valores de riesgo ajustados. Los modelos para los cuales las tasas de eventos esperados y observados en los subgrupos son similares se denominan bien calibrados.

Su significado: después de construir el modelo que califica el y de su modelo, desea verificar si está distribuido en 10 deciles, de manera similar a las tasas de eventos reales.

Entonces las hipótesis serán

  • H0 0
  • H1

Por lo tanto, si el valor p es menor que 0.05, no están bien distribuidos y necesita refinar su modelo.

Espero que esto responda algunas de sus consultas.

Rajnish Kumar
fuente
3

Esto es bastante discutible después de la respuesta de @ FrankHarrell, pero un fanático de la prueba H – L inferiría de ese resultado que a pesar de su inclusión de términos cuadráticos y algunas interacciones † de segundo orden, el modelo aún mostró una falta de ajuste significativa, y eso tal vez un modelo aún más complejo sería apropiado. Está probando el ajuste exacto del modelo que especificó, no del modelo más simple de primer orden.

† No es un modelo completo de segundo orden: hay tres interacciones por recorrer.

Scortchi - Restablece a Monica
fuente