Evaluación de un modelo de regresión logística.

He estado trabajando en un modelo logístico y tengo algunas dificultades para evaluar los resultados. Mi modelo es un logit binomial. Mis variables explicativas son: una variable categórica con 15 niveles, una variable dicotómica y 2 variables continuas. Mi N es grande> 8000.

Estoy tratando de modelar la decisión de las empresas de invertir. La variable dependiente es la inversión (sí / no), las 15 variables de nivel son diferentes obstáculos para las inversiones reportadas por los gerentes. El resto de las variables son controles de ventas, créditos y capacidad utilizada.

A continuación están mis resultados, usando el rmspaquete en R.

  Model Likelihood     Discrimination    Rank Discrim.    
                         Ratio Test            Indexes          Indexes       
Obs          8035    LR chi2     399.83    R2       0.067    C       0.632    
 1           5306    d.f.            17    g        0.544    Dxy     0.264    
 2           2729    Pr(> chi2) <0.0001    gr       1.723    gamma   0.266    
max |deriv| 6e-09                          gp       0.119    tau-a   0.118    
                                           Brier    0.213                     

          Coef    S.E.   Wald Z Pr(>|Z|)
Intercept -0.9501 0.1141 -8.33  <0.0001 
x1=10     -0.4929 0.1000 -4.93  <0.0001 
x1=11     -0.5735 0.1057 -5.43  <0.0001 
x1=12     -0.0748 0.0806 -0.93  0.3536  
x1=13     -0.3894 0.1318 -2.96  0.0031  
x1=14     -0.2788 0.0953 -2.92  0.0035  
x1=15     -0.7672 0.2302 -3.33  0.0009  
x1=2      -0.5360 0.2668 -2.01  0.0446  
x1=3      -0.3258 0.1548 -2.10  0.0353  
x1=4      -0.4092 0.1319 -3.10  0.0019  
x1=5      -0.5152 0.2304 -2.24  0.0254  
x1=6      -0.2897 0.1538 -1.88  0.0596  
x1=7      -0.6216 0.1768 -3.52  0.0004  
x1=8      -0.5861 0.1202 -4.88  <0.0001 
x1=9      -0.5522 0.1078 -5.13  <0.0001 
d2         0.0000 0.0000 -0.64  0.5206  
f1        -0.0088 0.0011 -8.19  <0.0001 
k8         0.7348 0.0499 14.74  <0.0001

Básicamente, quiero evaluar la regresión de dos maneras, a) qué tan bien el modelo se ajusta a los datos yb) qué tan bien el modelo predice el resultado. Para evaluar la bondad del ajuste (a), creo que las pruebas de desviación basadas en chi-cuadrado no son apropiadas en este caso porque el número de covariables únicas se aproxima a N, por lo que no podemos suponer una distribución X2. ¿Es correcta esta interpretación?

Puedo ver las covariables usando el epiRpaquete.

require(epiR)
logit.cp <- epi.cp(logit.df[-1]))

    id n x1   d2 f1 k8
     1 1 13 2030 56  1
     2 1 14  445 51  0
     3 1 12 1359 51  1
     4 1  1 1163 39  0
     5 1  7  547 62  0
     6 1  5 3721 62  1
    ...
    7446

También he leído que la prueba Hosmer-Lemeshow GoF está desactualizada, ya que divide los datos entre 10 para ejecutar la prueba, lo cual es bastante arbitrario.

En cambio, uso la prueba le Cessie – van Houwelingen – Copas – Hosmer, implementada en el rmspaquete. No estoy seguro exactamente cómo se realiza esta prueba, todavía no he leído los documentos al respecto. En cualquier caso, los resultados son:

Sum of squared errors    Expected value|H0           SD             Z            P
         1711.6449914         1712.2031888    0.5670868    -0.9843245    0.3249560

P es grande, por lo que no hay pruebas suficientes para decir que mi modelo no se ajusta. ¡Excelente! Sin embargo....

Cuando verifico la capacidad predictiva del modelo (b), dibujo una curva ROC y descubro que el AUC es 0.6320586. Eso no se ve muy bien.

ingrese la descripción de la imagen aquí

Entonces, para resumir mis preguntas:

¿Las pruebas que realizo son apropiadas para verificar mi modelo? ¿Qué otra prueba podría considerar?
¿Le resulta útil el modelo o lo descartaría en función de los resultados relativamente pobres del análisis ROC?

r logistic goodness-of-fit roc Federico C
fuente

¿Está seguro de que x1debe tomarse como una variable categórica única? Es decir, ¿cada caso tiene que tener 1, y solo 1, 'obstáculo' para invertir? Creo que algunos casos podrían enfrentarse con 2 o más obstáculos, y algunos casos no tienen ninguno.

gung - Restablece a Monica

Respuestas:

Hay muchos miles de pruebas que se pueden aplicar para inspeccionar un modelo de regresión logística, y gran parte de esto depende de si el objetivo es la predicción, la clasificación, la selección de variables, la inferencia, el modelo causal, etc. La prueba de Hosmer-Lemeshow, por ejemplo, evalúa calibración del modelo y si los valores predichos tienden a coincidir con la frecuencia predicha cuando se dividen por deciles de riesgo. Aunque la elección de 10 es arbitraria, la prueba tiene resultados asintóticos y puede modificarse fácilmente. La prueba HL, así como el AUC, tienen (en mi opinión) resultados muy poco interesantes cuando se calculan con los mismos datos que se usaron para estimar el modelo de regresión logística. Es una maravilla que programas como SAS y SPSS hagan informes frecuentes de estadísticas para análisis tremendamente diferentes de factoforma de presentar resultados de regresión logística. Las pruebas de precisión predictiva (p. Ej., HL y AUC) se emplean mejor con conjuntos de datos independientes o (incluso mejor) datos recopilados durante diferentes períodos de tiempo para evaluar la capacidad predictiva de un modelo.

Otro punto a destacar es que la predicción y la inferencia son cosas muy diferentes. No hay una forma objetiva de evaluar la predicción, un AUC de 0,65 es muy bueno para predecir eventos muy raros y complejos como el riesgo de cáncer de mama a 1 año. Del mismo modo, se puede acusar a la inferencia de ser arbitraria porque la tasa tradicional de falsos positivos de 0.05 es comúnmente arrojada.

Si yo fuera usted, la descripción de su problema parecía estar interesada en modelar los efectos de los "obstáculos" reportados por el gerente para invertir, así que concéntrese en presentar las asociaciones ajustadas del modelo. Presente las estimaciones puntuales y los intervalos de confianza del 95% para las razones de probabilidades del modelo y prepárese para discutir su significado, interpretación y validez con otros. Una parcela forestal es una herramienta gráfica efectiva. También debe mostrar la frecuencia de estos obstáculos en los datos y presentar su mediación mediante otras variables de ajuste para demostrar si la posibilidad de confusión fue pequeña o grande en los resultados no ajustados. Iría aún más lejos y exploraría factores como el alfa de Cronbach para la coherencia entre los obstáculos informados por el gerente para determinar si los gerentes tendían a informar problemas similares, o

Creo que estás demasiado concentrado en los números y no en la pregunta en cuestión. El 90% de una buena presentación de estadísticas tiene lugar antes de que se presenten los resultados del modelo.

AdamO
fuente

Gracias Adam por tu respuesta! Baso la mayor parte de mi análisis en la interpretación de los odds ratios y las probabilidades predichas. Pero dado que aún no estoy muy cómodo con la regresión logística, me temo que mi análisis podría descartarse porque me falta alguna prueba de ajuste del modelo general. Pero como usted dijo, también creo que debería centrarme en la interpretación más sustancial del modelo. Consideraré sus recomendaciones para parcelas forestales y Alpha de Cronbach también. ¡Gracias de nuevo!

Federico C

La única violación potencial legítima de los supuestos del modelo serían los datos correlacionados, dada la descripción de su problema. Teniendo esto en cuenta, puede hacer una prueba de dispersión con el modelo de regresión cuasibinomial , o puede intentar hacer análisis de subgrupos por tipos de industria (para las diversas empresas que mencionó), o nuevamente intentar análisis de conglomerados.

AdamO