Comparación de modelos de regresión logística binaria anidados cuando es grande

10

Para formular mejor mi pregunta, he proporcionado algunos de los resultados de un modelo de 16 variables ( fit) y un modelo de 17 variables ( fit2) a continuación (todas las variables predictoras en estos modelos son continuas, donde la única diferencia entre estos modelos es que fitno contiene la variable 17 (var17)):

fit                    Model Likelihood     Discrimination    Rank Discrim.    
                         Ratio Test            Indexes          Indexes       
 Obs        102849    LR chi2   13602.84    R2       0.173    C       0.703    
  0          69833    d.f.            17    g        1.150    Dxy     0.407    
  1          33016    Pr(> chi2) <0.0001    gr       3.160    gamma   0.416    
 max |deriv| 3e-05                          gp       0.180    tau-a   0.177    
                                            Brier    0.190       


fit2                 Model Likelihood       Discrimination    Rank Discrim.    
                         Ratio Test            Indexes          Indexes       
 Obs        102849    LR chi2   13639.70    R2       0.174    C       0.703    
  0          69833    d.f.            18    g        1.154    Dxy     0.407    
  1          33016    Pr(> chi2) <0.0001    gr       3.170    gamma   0.412    
 max |deriv| 3e-05                          gp       0.180    tau-a   0.177    
                                            Brier    0.190          

Usé el rmspaquete de Frank Harrell para construir estos lrmmodelos. Como puede ver, estos modelos no parecen variar mucho, si es que lo hacen, entre los índices de discriminación y la discriminación de rango. Índices ; sin embargo, usando lrtest(fit,fit2), obtuve los siguientes resultados:

 L.R. Chisq         d.f.            P 
3.685374e+01     1.000000e+00    1.273315e-09 

Como tal, rechazaríamos la hipótesis nula de esta prueba de razón de probabilidad; sin embargo, supongo que esto probablemente se deba al gran tamaño de la muestra ( n = 102849) ya que estos modelos parecen funcionar de manera similar. Además, estoy interesado en encontrar una mejor manera de comparar formalmente los modelos de regresión logística binaria anidados cuando n es grande.

¡Aprecio enormemente cualquier comentario, guiones R o documentación que pueda guiarme en la dirección correcta en términos de comparar este tipo de modelos anidados! ¡Gracias!

Matt Reichenbach
fuente
¿Cuál es el propósito de eliminar la variable 17?
Michael M
Este es un ejemplo de juguete; Sin embargo, normalmente me piden que construya modelos con 8-12 variables, y eliminar las variables que no contribuyen a un modelo es un interés principal para mí. La variable 17 parece significar muy poco para el modelo en su conjunto (en términos de previsibilidad), sin embargo, la prueba de razón de probabilidad nos dice que hay una diferencia significativa entre los dos modelos (probablemente debido a una gran n en lugar de una diferencia real en estos dos modelos) Como tal, espero encontrar una manera de comparar estos dos modelos (encontrar un método que no indique una diferencia entre estos dos modelos)
Matt Reichenbach
(1) no estoy seguro de entender lo que estás buscando. Pero en medicina, el problema con el uso de la discriminación como estadística c está bien establecido, la estadística c puede permanecer sin cambios incluso con la adición de una variable significativa, y ha llevado al desarrollo de índices de reclasificación ( circ.ahajournals.org/content/121/15/ 1768.full ) (2) ¿son similares los AIC / BIC? Varios criterios de ganancia de información variable pueden ser más útiles que los criterios de discriminación.
Charles
1
Creo que hay un error tipográfico en su primer párrafo. Se afirma que fit2es un modelo de 17 variables, pero también es el modelo que omite V17. Es posible que desee editar esto.
tomka
1
@tomka, cambié fit2a fiten el ejemplo anterior según su corrección. ¡Gracias!
Matt Reichenbach

Respuestas:

6

(1) Existe una extensa literatura sobre por qué uno debería preferir modelos completos a modelos restringidos / parsimoniosos. Tengo entendido que hay pocas razones para preferir el modelo parsimonioso. Sin embargo, los modelos más grandes pueden no ser factibles para muchas aplicaciones clínicas.

(2) Hasta donde yo sé, los índices de Discriminación / Discriminación no se usan (? No deberían) como un parámetro de selección de modelo / variable. No están destinados a este uso y, como resultado, puede que no haya mucha literatura sobre por qué no deberían usarse para la construcción de modelos.

(3) Los modelos parsimoniosos pueden tener limitaciones que no son evidentes. Pueden estar peor calibrados que los modelos más grandes, la validez externa / interna puede verse reducida.

(4) El estadístico c puede no ser óptimo para evaluar modelos que predicen riesgos futuros o estratifican a los individuos en categorías de riesgo. En este contexto, la calibración es tan importante para la evaluación precisa del riesgo. Por ejemplo, un biomarcador con una razón de probabilidad de 3 puede tener poco efecto sobre la estadística, pero un nivel mayor podría cambiar el riesgo cardiovascular estimado de 10 años para un paciente individual del 8% al 24%

Cocinar NR; Uso y mal uso de la curva ROC en la literatura médica. Circulación. 115 2007: 928-935.

(5) Se sabe que la estadística / discriminación AUC / c es insensible a las variables predictoras significativas. Esto se discute en la referencia de Cook anterior y la fuerza motivadora detrás del desarrollo del índice de reclasificación neta. También discutido en Cook arriba.

(6) Los grandes conjuntos de datos aún pueden conducir a modelos más grandes de lo deseado si se utilizan métodos de selección de variables estándar. En los procedimientos de selección por pasos, a menudo se utiliza un valor de corte de p de 0,05. Pero no hay nada intrínseco en este valor que significa que debe elegir este valor. Con conjuntos de datos más pequeños, un valor p más grande (0.2) puede ser más apropiado, en conjuntos de datos más grandes puede ser apropiado un valor p más pequeño (se usó 0.01 para el conjunto de datos GUSTO I por este motivo).

(7) Si bien AIC se usa a menudo para la selección de modelos, y está mejor respaldado por la literatura, BIC puede ser una alternativa válida en conjuntos de datos más grandes. Para la selección del modelo BIC, el chi-cuadrado debe exceder log (n), por lo que dará como resultado modelos más pequeños en conjuntos de datos más grandes. (Mallow puede tener características similares)

(8) Pero si lo que desea es un máximo de 10 o 12 variables, la solución más fácil es algo así como bestglmo leapspaquetes se acaba de establecer el número máximo de variables que desee considerar.

(9) si solo desea una prueba que haga que los dos modelos se vean iguales, y no esté demasiado preocupado por los detalles, es probable que pueda comparar el AUC de los dos modelos. Algunos paquetes incluso le darán un valor p para la comparación. No parece aconsejable.

Ambler G (2002) Simplificando un modelo de pronóstico: un estudio de simulación basado en datos clínicos
Cook NR; Uso y mal uso de la curva ROC en la literatura médica. Circulación. 115 2007: 928-935.
Gail MH, Pfeiffer RM; Sobre criterios para evaluar modelos de riesgo absoluto. Biostat 6 2005: 227-239.

(10) Una vez que el modelo ha sido construido, los índices de estadísticas / decimación c pueden no ser el mejor enfoque para comparar modelos y tienen limitaciones bien documentadas. Es probable que las comparaciones también incluyan, como mínimo, la calibración y el índice de reclasificación.

Steyerber (2010) Evaluación del desempeño de los modelos de predicción: un marco para algunas medidas tradicionales y novedosas

(11) Puede ser una buena idea ir más allá y utilizar medidas analíticas de decisión.

Vickers AJ, Elkin EB. Análisis de curva de decisión: un método novedoso para evaluar modelos de predicción. Med Decis Making. 2006; 26: 565-74.
Baker SG, Cook NR, Vickers A, Kramer BS. Uso de curvas de utilidad relativa para evaluar la predicción de riesgos. JR Stat Soc A. 2009; 172: 729-48.
Van Calster B, Vickers AJ, Pencina MJ, Baker SG, Timmerman D, Steyerberg EW. Evaluación de marcadores y modelos de predicción de riesgos: descripción general de las relaciones entre el NRI y las medidas analíticas de decisión. Med Decis Making. 2013; 33: 490-501

--- Actualización --- Encuentro el artículo de Vickers el más interesante. Pero esto aún no ha sido ampliamente aceptado a pesar de muchos editoriales. Por lo tanto, puede no ser de mucha utilidad práctica. Los artículos de Cook y Steyerberg son mucho más prácticos.

A nadie le gusta la selección por pasos. Ciertamente no voy a abogar por ello. Podría enfatizar que la mayoría de las críticas de stepwise asumen EPV <50 y una elección entre un modelo completo o preespecificado y un modelo reducido. Si EPV> 50 y existe un compromiso con un modelo reducido, el análisis de costo-beneficio puede ser diferente.

El pensamiento débil detrás de la comparación de las estadísticas c es que pueden no ser diferentes y creo recordar que esta prueba tiene una potencia significativamente baja. Pero ahora no puedo encontrar la referencia, por lo que podría estar muy lejos de eso.

Charles
fuente
(1) Soy consciente de que se prefieren los modelos completos, pero tengo más de 1k vars para elegir y estoy obligado a construir estos modelos más pequeños debido a los requisitos específicos de la industria. (2) ¡Eso tiene sentido! (3) ¡De acuerdo! (4) Verdadero (5) Interesante
Matt Reichenbach
(6) De acuerdo; sin embargo, los procedimientos paso a paso son muy cuestionables, y cuanto más bajo es el valor de corte de p , más sesgados se vuelven estos tipos de modelos, independientemente del tamaño de la muestra. (7) “Para la selección del modelo BIC, el chi-cuadrado debe exceder log (n)”, esto parece muy útil. ¡Gracias! (8) bestglmy los leapspaquetes son muy costosos desde el punto de vista informático y tardan días en ejecutarse con conjuntos de datos como los que yo trabajo, pero gracias por las posibles ideas.
Matt Reichenbach
(9) Estos valores p serían significativos incluso si los modelos fueran casi exactamente iguales debido al gran tamaño de la muestra sola. (10) Necesito investigar más sobre el índice de calibración y reclasificación, ¡gracias! (11) Estoy muy interesado en leer estos artículos, ¿me recomendaría comenzar con Vickers? ¡Gracias!
Matt Reichenbach
5

Una opción es usar medidas de pseudo R-cuadrado para ambos modelos. Una fuerte diferencia en el pseudo R cuadrado sugiere que el ajuste del modelo disminuye fuertemente al omitir V17.

Hay diferentes tipos de Pseudo R-cuadrados disponibles. Puede encontrar una descripción general aquí, por ejemplo:

http://www.ats.ucla.edu/stat/mult_pkg/faq/general/Psuedo_RSquareds.htm

Una medida popular es Nagelkerke R-square. Varía entre 0 y 1 y, con cuidado, se puede interpretar como R cuadrado de un modelo de regresión lineal simple. Se basa en una relación transformada de probabilidades estimadas del modelo completo al modelo de solo intercepción.

Puede estimarlo fity fit2, respectivamente, y comparar el tamaño relativo para obtener una indicación de su problema. Un cuadrado R de Nagelkerke sustancialmente mayor para fitsugeriría que fit2pierde mucho poder predictivo por omisión de V17.

En lrmel statsvalor proporciona R-cuadrado de Nagelkerke. Por lo tanto, dar fit$statsdebe proporcionarle una estimación. Ver también ?lrm.

tomka
fuente
Estoy familiarizado con el cuadrado R de Nagelkerke; sin embargo, mi pregunta radica en ¿para qué sirve "un Nagelkerke R-Square sustancialmente más alto fit"? En el ejemplo anterior, hay una diferencia de 0.001 ya que tenemos el R-cuadrado de Nagelkerke de 0.173 y 0.174 para fity fit2, respectivamente. ¿Tiene alguna referencia de lo que es "un Nagelkerke R-Square sustancialmente más alto"? ¡Gracias!
Matt Reichenbach
@ Matt: Creo que no hay pautas generalizadas para interpretar el R² de Nagelkerke u otras medidas de pseudo R². Sin embargo, tenga en cuenta que es una medida transformada de 'reducción de probabilidad' mediante la inclusión de covariables al modelo de solo intercepción, lo que lo hace similar a la 'varianza explicada' indicada por R² estándar en regresión lineal. En ese sentido, interpretaría la diferencia .173 / .174 como muy pequeña. Una diferencia más fuerte sería algo. puenteando deciles. Sin embargo, sugiero estimar otras medidas de pseudo R², por ejemplo, McFadden o Cox / Snell para verificar la solidez de esta conclusión.
tomka
Estoy de acuerdo en que esta diferencia es muy pequeña, pero desearía poder encontrar una referencia que indique qué es una "pequeña" diferencia ... Aprecio sus pensamientos. ¡Gracias de nuevo!
Matt Reichenbach
1
¡No hay problema! lo siento por no votarte antes! ¡Publicaré nuevamente, si encuentro una respuesta en cuanto a la "pequeña" diferencia en términos de pseduo R-cuadrado! ¡Gracias!
Matt Reichenbach
-1

Acabo de leer sobre esto. La forma correcta de hacer esto es usar la salida del modelo final de glm de R y buscar "Desviación residual:" y derivar el delta entre los dos modelos y usar este valor en una prueba de chi-cuadrado usando df igual al # de términos predictores descartados. Y ese es su valor p.

Modelado de regresión aplicada Iaian Pardoe 2da edición 2012 pg 270

cardo
fuente