Para formular mejor mi pregunta, he proporcionado algunos de los resultados de un modelo de 16 variables ( fit
) y un modelo de 17 variables ( fit2
) a continuación (todas las variables predictoras en estos modelos son continuas, donde la única diferencia entre estos modelos es que fit
no contiene la variable 17 (var17)):
fit Model Likelihood Discrimination Rank Discrim.
Ratio Test Indexes Indexes
Obs 102849 LR chi2 13602.84 R2 0.173 C 0.703
0 69833 d.f. 17 g 1.150 Dxy 0.407
1 33016 Pr(> chi2) <0.0001 gr 3.160 gamma 0.416
max |deriv| 3e-05 gp 0.180 tau-a 0.177
Brier 0.190
fit2 Model Likelihood Discrimination Rank Discrim.
Ratio Test Indexes Indexes
Obs 102849 LR chi2 13639.70 R2 0.174 C 0.703
0 69833 d.f. 18 g 1.154 Dxy 0.407
1 33016 Pr(> chi2) <0.0001 gr 3.170 gamma 0.412
max |deriv| 3e-05 gp 0.180 tau-a 0.177
Brier 0.190
Usé el rms
paquete de Frank Harrell para construir estos lrm
modelos. Como puede ver, estos modelos no parecen variar mucho, si es que lo hacen, entre los índices de discriminación y la discriminación de rango. Índices ; sin embargo, usando lrtest(fit,fit2)
, obtuve los siguientes resultados:
L.R. Chisq d.f. P
3.685374e+01 1.000000e+00 1.273315e-09
Como tal, rechazaríamos la hipótesis nula de esta prueba de razón de probabilidad; sin embargo, supongo que esto probablemente se deba al gran tamaño de la muestra ( n = 102849) ya que estos modelos parecen funcionar de manera similar. Además, estoy interesado en encontrar una mejor manera de comparar formalmente los modelos de regresión logística binaria anidados cuando n es grande.
¡Aprecio enormemente cualquier comentario, guiones R o documentación que pueda guiarme en la dirección correcta en términos de comparar este tipo de modelos anidados! ¡Gracias!
fuente
fit2
es un modelo de 17 variables, pero también es el modelo que omiteV17
. Es posible que desee editar esto.fit2
afit
en el ejemplo anterior según su corrección. ¡Gracias!Respuestas:
(1) Existe una extensa literatura sobre por qué uno debería preferir modelos completos a modelos restringidos / parsimoniosos. Tengo entendido que hay pocas razones para preferir el modelo parsimonioso. Sin embargo, los modelos más grandes pueden no ser factibles para muchas aplicaciones clínicas.
(2) Hasta donde yo sé, los índices de Discriminación / Discriminación no se usan (? No deberían) como un parámetro de selección de modelo / variable. No están destinados a este uso y, como resultado, puede que no haya mucha literatura sobre por qué no deberían usarse para la construcción de modelos.
(3) Los modelos parsimoniosos pueden tener limitaciones que no son evidentes. Pueden estar peor calibrados que los modelos más grandes, la validez externa / interna puede verse reducida.
(4) El estadístico c puede no ser óptimo para evaluar modelos que predicen riesgos futuros o estratifican a los individuos en categorías de riesgo. En este contexto, la calibración es tan importante para la evaluación precisa del riesgo. Por ejemplo, un biomarcador con una razón de probabilidad de 3 puede tener poco efecto sobre la estadística, pero un nivel mayor podría cambiar el riesgo cardiovascular estimado de 10 años para un paciente individual del 8% al 24%
Cocinar NR; Uso y mal uso de la curva ROC en la literatura médica. Circulación. 115 2007: 928-935.
(5) Se sabe que la estadística / discriminación AUC / c es insensible a las variables predictoras significativas. Esto se discute en la referencia de Cook anterior y la fuerza motivadora detrás del desarrollo del índice de reclasificación neta. También discutido en Cook arriba.
(6) Los grandes conjuntos de datos aún pueden conducir a modelos más grandes de lo deseado si se utilizan métodos de selección de variables estándar. En los procedimientos de selección por pasos, a menudo se utiliza un valor de corte de p de 0,05. Pero no hay nada intrínseco en este valor que significa que debe elegir este valor. Con conjuntos de datos más pequeños, un valor p más grande (0.2) puede ser más apropiado, en conjuntos de datos más grandes puede ser apropiado un valor p más pequeño (se usó 0.01 para el conjunto de datos GUSTO I por este motivo).
(7) Si bien AIC se usa a menudo para la selección de modelos, y está mejor respaldado por la literatura, BIC puede ser una alternativa válida en conjuntos de datos más grandes. Para la selección del modelo BIC, el chi-cuadrado debe exceder log (n), por lo que dará como resultado modelos más pequeños en conjuntos de datos más grandes. (Mallow puede tener características similares)
(8) Pero si lo que desea es un máximo de 10 o 12 variables, la solución más fácil es algo así como
bestglm
oleaps
paquetes se acaba de establecer el número máximo de variables que desee considerar.(9) si solo desea una prueba que haga que los dos modelos se vean iguales, y no esté demasiado preocupado por los detalles, es probable que pueda comparar el AUC de los dos modelos. Algunos paquetes incluso le darán un valor p para la comparación. No parece aconsejable.
Ambler G (2002) Simplificando un modelo de pronóstico: un estudio de simulación basado en datos clínicos
Cook NR; Uso y mal uso de la curva ROC en la literatura médica. Circulación. 115 2007: 928-935.
Gail MH, Pfeiffer RM; Sobre criterios para evaluar modelos de riesgo absoluto. Biostat 6 2005: 227-239.
(10) Una vez que el modelo ha sido construido, los índices de estadísticas / decimación c pueden no ser el mejor enfoque para comparar modelos y tienen limitaciones bien documentadas. Es probable que las comparaciones también incluyan, como mínimo, la calibración y el índice de reclasificación.
Steyerber (2010) Evaluación del desempeño de los modelos de predicción: un marco para algunas medidas tradicionales y novedosas
(11) Puede ser una buena idea ir más allá y utilizar medidas analíticas de decisión.
Vickers AJ, Elkin EB. Análisis de curva de decisión: un método novedoso para evaluar modelos de predicción. Med Decis Making. 2006; 26: 565-74.
Baker SG, Cook NR, Vickers A, Kramer BS. Uso de curvas de utilidad relativa para evaluar la predicción de riesgos. JR Stat Soc A. 2009; 172: 729-48.
Van Calster B, Vickers AJ, Pencina MJ, Baker SG, Timmerman D, Steyerberg EW. Evaluación de marcadores y modelos de predicción de riesgos: descripción general de las relaciones entre el NRI y las medidas analíticas de decisión. Med Decis Making. 2013; 33: 490-501
--- Actualización --- Encuentro el artículo de Vickers el más interesante. Pero esto aún no ha sido ampliamente aceptado a pesar de muchos editoriales. Por lo tanto, puede no ser de mucha utilidad práctica. Los artículos de Cook y Steyerberg son mucho más prácticos.
A nadie le gusta la selección por pasos. Ciertamente no voy a abogar por ello. Podría enfatizar que la mayoría de las críticas de stepwise asumen EPV <50 y una elección entre un modelo completo o preespecificado y un modelo reducido. Si EPV> 50 y existe un compromiso con un modelo reducido, el análisis de costo-beneficio puede ser diferente.
El pensamiento débil detrás de la comparación de las estadísticas c es que pueden no ser diferentes y creo recordar que esta prueba tiene una potencia significativamente baja. Pero ahora no puedo encontrar la referencia, por lo que podría estar muy lejos de eso.
fuente
bestglm
y losleaps
paquetes son muy costosos desde el punto de vista informático y tardan días en ejecutarse con conjuntos de datos como los que yo trabajo, pero gracias por las posibles ideas.Una opción es usar medidas de pseudo R-cuadrado para ambos modelos. Una fuerte diferencia en el pseudo R cuadrado sugiere que el ajuste del modelo disminuye fuertemente al omitir V17.
Hay diferentes tipos de Pseudo R-cuadrados disponibles. Puede encontrar una descripción general aquí, por ejemplo:
http://www.ats.ucla.edu/stat/mult_pkg/faq/general/Psuedo_RSquareds.htm
Una medida popular es Nagelkerke R-square. Varía entre 0 y 1 y, con cuidado, se puede interpretar como R cuadrado de un modelo de regresión lineal simple. Se basa en una relación transformada de probabilidades estimadas del modelo completo al modelo de solo intercepción.
Puede estimarlo
fit
yfit2
, respectivamente, y comparar el tamaño relativo para obtener una indicación de su problema. Un cuadrado R de Nagelkerke sustancialmente mayor parafit
sugeriría quefit2
pierde mucho poder predictivo por omisión de V17.En
lrm
elstats
valor proporciona R-cuadrado de Nagelkerke. Por lo tanto, darfit$stats
debe proporcionarle una estimación. Ver también?lrm
.fuente
fit
"? En el ejemplo anterior, hay una diferencia de 0.001 ya que tenemos el R-cuadrado de Nagelkerke de 0.173 y 0.174 parafit
yfit2
, respectivamente. ¿Tiene alguna referencia de lo que es "un Nagelkerke R-Square sustancialmente más alto"? ¡Gracias!Acabo de leer sobre esto. La forma correcta de hacer esto es usar la salida del modelo final de glm de R y buscar "Desviación residual:" y derivar el delta entre los dos modelos y usar este valor en una prueba de chi-cuadrado usando df igual al # de términos predictores descartados. Y ese es su valor p.
Modelado de regresión aplicada Iaian Pardoe 2da edición 2012 pg 270
fuente