Supongamos que tenemos covariables y una variable de resultado binaria . Algunas de estas covariables son categóricas con múltiples niveles. Otros son continuos. ¿Cómo elegirías el "mejor" modelo? En otras palabras, ¿cómo elige qué covariables incluir en el modelo?
¿Modelaría con cada una de las covariables individualmente usando regresión logística simple y elegiría las que tienen una asociación significativa?
logistic
regression-strategies
Thomas
fuente
fuente
Respuestas:
Probablemente esto no sea algo bueno para hacer. Mirar primero todas las covariables individuales y luego construir un modelo con las que son significativas es lógicamente equivalente a un procedimiento de búsqueda automática. Si bien este enfoque es intuitivo, las inferencias hechas a partir de este procedimiento no son válidas (por ejemplo, los valores p verdaderos son diferentes de los informados por el software). El problema se magnifica cuanto mayor es el tamaño del conjunto inicial de covariables. Si haces esto de todos modos (y, desafortunadamente, muchas personas lo hacen), no puedes tomar en serio el modelo resultante. En su lugar, debe ejecutar un estudio completamente nuevo, recolectar una muestra independiente y ajustar el modelo anterior para probarlo. Sin embargo, esto requiere muchos recursos, y además, dado que el proceso es defectuoso y el modelo anterior es probablemente pobre,desperdiciar muchos recursos.
Una mejor manera es evaluar modelos de interés sustantivo para usted. Luego use un criterio de información que penalice la flexibilidad del modelo (como el AIC) para adjudicar entre esos modelos. Para la regresión logística, el AIC es:
donde es el número de covariables incluidas en ese modelo. Desea el modelo con el valor más pequeño para el AIC, en igualdad de condiciones. Sin embargo, no siempre es tan simple; tenga cuidado cuando varios modelos tengan valores similares para el AIC, aunque uno sea el más bajo.k
Incluyo la fórmula completa para el AIC aquí, porque diferentes programas generan información diferente. Puede que tenga que calcularlo solo por la probabilidad, o puede obtener el AIC final, o cualquier otra cosa.
fuente
Hay muchas formas de elegir qué variables van en un modelo de regresión, algunas decentes, algunas malas y otras terribles. Uno puede simplemente navegar por las publicaciones de Sander Groenlandia, muchas de las cuales se refieren a la selección de variables.
Sin embargo, en términos generales, tengo algunas "reglas" comunes:
fuente
¿Cómo elegirías el "mejor" modelo?
No se proporciona suficiente información para responder esta pregunta; si desea obtener efectos causales en y , necesitará implementar regresiones que reflejen lo que se sabe sobre la confusión. Si desea hacer predicciones, AIC sería un enfoque razonable.
Estos enfoques no son lo mismo; el contexto determinará cuál de las (muchas) formas de elegir variables será más / menos apropiada.
fuente