Esta pregunta / tema surgió en una discusión con un colega y estaba buscando algunas opiniones sobre esto:
Estoy modelando algunos datos usando una regresión logística de efectos aleatorios, más precisamente una regresión logística de intercepción aleatoria. Para los efectos fijos tengo 9 variables que son de interés y entran en consideración. Me gustaría hacer algún tipo de selección de modelo para encontrar las variables que son significativas y dar el "mejor" modelo (solo efectos principales).
Mi primera idea fue usar el AIC para comparar diferentes modelos, pero con 9 variables no era demasiado emocionante para comparar 2 ^ 9 = 512 modelos diferentes (palabra clave: dragado de datos).
Discutí esto con un colega y me dijo que recordaba haber leído sobre el uso de la selección de modelos por pasos (o hacia adelante) con GLMM. Pero en lugar de usar un valor p (por ejemplo, basado en una prueba de razón de probabilidad para GLMM), uno debería usar el AIC como criterio de entrada / salida.
Encontré esta idea muy interesante, pero no encontré ninguna referencia que discutiera más sobre esto y mi colega no recordaba dónde la leyó. Muchos libros sugieren usar el AIC para comparar modelos, pero no encontré ninguna discusión sobre el uso de esto junto con un procedimiento de selección de modelo gradual o progresivo.
Entonces tengo básicamente dos preguntas:
¿Hay algo de malo en usar el AIC en un procedimiento de selección de modelo por pasos como criterio de entrada / salida? En caso afirmativo, ¿cuál sería la alternativa?
¿Tiene algunas referencias que analicen el procedimiento anterior que (también como referencia para un informe final?
Mejor,
Emilia
Respuestas:
La selección por pasos es incorrecta en los modelos multinivel por las mismas razones que es incorrecta en la regresión "regular": los valores p serán demasiado bajos, los errores estándar demasiado pequeños, las estimaciones de los parámetros se desvían de 0, etc. Lo más importante, lo niega La oportunidad de pensar.
9 IVs no es mucho. ¿Por qué elegiste esos 9? Seguramente tenías una razón.
Una cosa inicial que hacer es mirar muchas parcelas; cuáles precisas dependen un poco de si sus datos son longitudinales (en cuyo caso, los gráficos con tiempo en el eje x a menudo son útiles) o agrupados. Pero seguramente mire las relaciones entre los 9 IV y su DV (los diagramas de cajas paralelas son una posibilidad simple).
Lo ideal sería construir algunos modelos basados en un sentido sustantivo y compararlos usando AIC, BIC o alguna otra medida. Pero no se sorprenda si ningún modelo en particular resulta claramente mejor. No dice en qué campo trabaja, pero en muchos (¿la mayoría?), La naturaleza es complicada. Varios modelos pueden ajustarse igualmente bien y un modelo diferente puede ajustarse mejor en un conjunto de datos diferente (incluso si ambos son muestras aleatorias de la misma población).
En cuanto a las referencias, hay muchos buenos libros sobre modelos mixtos no lineales. Cuál es el mejor para usted depende de a) En qué campo se encuentra b) Cuál es la naturaleza de los datos c) Qué software utiliza.
Respondiendo a tu comentario
Si las 9 variables son científicamente importantes, al menos consideraría incluirlas todas. Si una variable que todos consideran importante termina teniendo un pequeño efecto, es interesante.
Ciertamente, trace todas sus variables a lo largo del tiempo y de varias maneras.
Para cuestiones generales sobre modelos longitudinales multinivel, me gustan Hedeker y Gibbons ; para modelos longitudinales no lineales en SAS me gustan Molenberghs y Verbeke . La documentación de SAS en sí misma (para
PROC GLIMMIX
) también proporciona orientación.fuente
La selección del modelo se puede llevar a cabo mejor utilizando métodos de contracción como LASSO. Los métodos paso a paso son demasiado liberales. Se puede encontrar una justificación en la página web de Tibshirani. Si está utilizando R, existe un paquete llamado
glmmLasso
que permite la selección del modelo en modelos de efectos mixtos lineales generalizados utilizando el método de contracción LASSO.fuente
Una buena referencia para la selección de modelos mixtos basados en AIC en R (también buena para tontos) sería Zuur_2009_Mixed_Effect_Models_and_Extensions_in_Ecology_with_R,
fuente