Selección de modelo: regresión logística

13

Supongamos que tenemos covariables y una variable de resultado binaria . Algunas de estas covariables son categóricas con múltiples niveles. Otros son continuos. ¿Cómo elegirías el "mejor" modelo? En otras palabras, ¿cómo elige qué covariables incluir en el modelo?nx1,,xny

¿Modelaría con cada una de las covariables individualmente usando regresión logística simple y elegiría las que tienen una asociación significativa?y

Thomas
fuente
1
Además de mi respuesta a continuación (u otras, si surgen), la siguiente tiene una buena discusión sobre la selección del modelo (aunque no se centró en la regresión logística per se) stats.stackexchange.com/questions/18214/…
gung - Reinstate Monica
2
Citaré a @jthetzel de un comentario reciente en este sitio: "Una buena pregunta, pero que la mayoría aquí estudió en cursos universitarios de un semestre, y algunos han pasado carreras estudiando". Es como sentarse con una persona y decir: "¿Puedes enseñarme Swahili esta tarde?" No es que Gung no haga buenos puntos en su respuesta. Es solo un vasto territorio.
rolando2
2
Este es también un hilo que, si bien para una pregunta muy específica, contiene algunos consejos míos en general: stats.stackexchange.com/questions/17068/… También daré mis pensamientos a continuación.
Fomite
De acuerdo, creo que usaré AIC como criterio. El modelo completo tiene el AIC más bajo. Además, los AIC son bastante diferentes entre sí.
Thomas

Respuestas:

10

Probablemente esto no sea algo bueno para hacer. Mirar primero todas las covariables individuales y luego construir un modelo con las que son significativas es lógicamente equivalente a un procedimiento de búsqueda automática. Si bien este enfoque es intuitivo, las inferencias hechas a partir de este procedimiento no son válidas (por ejemplo, los valores p verdaderos son diferentes de los informados por el software). El problema se magnifica cuanto mayor es el tamaño del conjunto inicial de covariables. Si haces esto de todos modos (y, desafortunadamente, muchas personas lo hacen), no puedes tomar en serio el modelo resultante. En su lugar, debe ejecutar un estudio completamente nuevo, recolectar una muestra independiente y ajustar el modelo anterior para probarlo. Sin embargo, esto requiere muchos recursos, y además, dado que el proceso es defectuoso y el modelo anterior es probablemente pobre,desperdiciar muchos recursos.

Una mejor manera es evaluar modelos de interés sustantivo para usted. Luego use un criterio de información que penalice la flexibilidad del modelo (como el AIC) para adjudicar entre esos modelos. Para la regresión logística, el AIC es:

AIC=2×ln(likelihood)+2k

donde es el número de covariables incluidas en ese modelo. Desea el modelo con el valor más pequeño para el AIC, en igualdad de condiciones. Sin embargo, no siempre es tan simple; tenga cuidado cuando varios modelos tengan valores similares para el AIC, aunque uno sea el más bajo. k

Incluyo la fórmula completa para el AIC aquí, porque diferentes programas generan información diferente. Puede que tenga que calcularlo solo por la probabilidad, o puede obtener el AIC final, o cualquier otra cosa.

gung - Restablece a Monica
fuente
66
Me gusta AIC, pero tenga en cuenta que calcular AIC en más de 2 modelos especificados previamente da como resultado un problema de multiplicidad.
Frank Harrell el
1
@FrankHarrell buen consejo!
gung - Restablece a Monica
9

Hay muchas formas de elegir qué variables van en un modelo de regresión, algunas decentes, algunas malas y otras terribles. Uno puede simplemente navegar por las publicaciones de Sander Groenlandia, muchas de las cuales se refieren a la selección de variables.

Sin embargo, en términos generales, tengo algunas "reglas" comunes:

  • Los algoritmos automatizados, como los que vienen en paquetes de software, son probablemente una mala idea.
  • El uso de técnicas de diagnóstico modelo, como sugiere Gung, es un buen medio para evaluar sus opciones de selección de variables
  • También debe utilizar una combinación de experiencia en el tema, buscadores de literatura, gráficos acíclicos dirigidos, etc. para informar sus opciones de selección variable.
Fomite
fuente
3
En pocas palabras, especialmente los puntos 1 y 3. Las técnicas de diagnóstico del modelo pueden resultar en una falla para preservar el error tipo I.
Frank Harrell el
3
Pues pon @Epigrad. Sin embargo, agregaría un punto. Los algoritmos automatizados se vuelven muy atractivos cuando su problema se agrava. Pueden ser la única forma factible de hacer la selección del modelo en algunos casos. La gente ahora está analizando grandes conjuntos de datos con miles de variables potenciales y millones de observaciones. ¿Cómo es la experiencia del tema en la intuición 1000-dimensional? Y lo que encontrará es que, incluso si lo hace manualmente (es decir, con un analista), es probable que terminen creando algunas reglas de acceso directo para elegir variables. La parte difícil es realmente codificar esas elecciones.
probabilidadislogic
1
@probabilityislogic Estoy de acuerdo con eso. Honestamente, creo que las técnicas tradicionales no son adecuadas para conjuntos de datos muy grandes, pero la tendencia a recurrir a técnicas más adecuadas me alarma. Si un algoritmo automatizado puede sesgar un conjunto de datos con 10 variables, no hay razón para que no pueda sesgar uno con 10,000. El énfasis actual en la adquisición de big data sobre su análisis en algunas partes me pone un poco nervioso.
Fomite
2
@probabilityislogic En un giro profundamente irónico, ahora me encuentro trabajando con un conjunto de datos con más de 10 de miles de variables potenciales>. <
Fomite
2

¿Cómo elegirías el "mejor" modelo?

No se proporciona suficiente información para responder esta pregunta; si desea obtener efectos causales en y , necesitará implementar regresiones que reflejen lo que se sabe sobre la confusión. Si desea hacer predicciones, AIC sería un enfoque razonable.

Estos enfoques no son lo mismo; el contexto determinará cuál de las (muchas) formas de elegir variables será más / menos apropiada.

invitado
fuente