Modelos lineales mixtos generalizados: selección de modelos

10

Esta pregunta / tema surgió en una discusión con un colega y estaba buscando algunas opiniones sobre esto:

Estoy modelando algunos datos usando una regresión logística de efectos aleatorios, más precisamente una regresión logística de intercepción aleatoria. Para los efectos fijos tengo 9 variables que son de interés y entran en consideración. Me gustaría hacer algún tipo de selección de modelo para encontrar las variables que son significativas y dar el "mejor" modelo (solo efectos principales).

Mi primera idea fue usar el AIC para comparar diferentes modelos, pero con 9 variables no era demasiado emocionante para comparar 2 ^ 9 = 512 modelos diferentes (palabra clave: dragado de datos).

Discutí esto con un colega y me dijo que recordaba haber leído sobre el uso de la selección de modelos por pasos (o hacia adelante) con GLMM. Pero en lugar de usar un valor p (por ejemplo, basado en una prueba de razón de probabilidad para GLMM), uno debería usar el AIC como criterio de entrada / salida.

Encontré esta idea muy interesante, pero no encontré ninguna referencia que discutiera más sobre esto y mi colega no recordaba dónde la leyó. Muchos libros sugieren usar el AIC para comparar modelos, pero no encontré ninguna discusión sobre el uso de esto junto con un procedimiento de selección de modelo gradual o progresivo.

Entonces tengo básicamente dos preguntas:

  1. ¿Hay algo de malo en usar el AIC en un procedimiento de selección de modelo por pasos como criterio de entrada / salida? En caso afirmativo, ¿cuál sería la alternativa?

  2. ¿Tiene algunas referencias que analicen el procedimiento anterior que (también como referencia para un informe final?

Mejor,

Emilia

Emilia
fuente
3
La selección de modelo paso a paso es tanto el dragado de datos como la selección de subconjunto completo (en realidad trata de encontrar aproximadamente la misma solución en mucho menos tiempo). La selección basada en AIC también es dragado de datos.
Michael M

Respuestas:

7

La selección por pasos es incorrecta en los modelos multinivel por las mismas razones que es incorrecta en la regresión "regular": los valores p serán demasiado bajos, los errores estándar demasiado pequeños, las estimaciones de los parámetros se desvían de 0, etc. Lo más importante, lo niega La oportunidad de pensar.

9 IVs no es mucho. ¿Por qué elegiste esos 9? Seguramente tenías una razón.

Una cosa inicial que hacer es mirar muchas parcelas; cuáles precisas dependen un poco de si sus datos son longitudinales (en cuyo caso, los gráficos con tiempo en el eje x a menudo son útiles) o agrupados. Pero seguramente mire las relaciones entre los 9 IV y su DV (los diagramas de cajas paralelas son una posibilidad simple).

Lo ideal sería construir algunos modelos basados ​​en un sentido sustantivo y compararlos usando AIC, BIC o alguna otra medida. Pero no se sorprenda si ningún modelo en particular resulta claramente mejor. No dice en qué campo trabaja, pero en muchos (¿la mayoría?), La naturaleza es complicada. Varios modelos pueden ajustarse igualmente bien y un modelo diferente puede ajustarse mejor en un conjunto de datos diferente (incluso si ambos son muestras aleatorias de la misma población).

En cuanto a las referencias, hay muchos buenos libros sobre modelos mixtos no lineales. Cuál es el mejor para usted depende de a) En qué campo se encuentra b) Cuál es la naturaleza de los datos c) Qué software utiliza.

Respondiendo a tu comentario

  1. Si las 9 variables son científicamente importantes, al menos consideraría incluirlas todas. Si una variable que todos consideran importante termina teniendo un pequeño efecto, es interesante.

  2. Ciertamente, trace todas sus variables a lo largo del tiempo y de varias maneras.

  3. Para cuestiones generales sobre modelos longitudinales multinivel, me gustan Hedeker y Gibbons ; para modelos longitudinales no lineales en SAS me gustan Molenberghs y Verbeke . La documentación de SAS en sí misma (para PROC GLIMMIX) también proporciona orientación.

Peter Flom - Restablece a Monica
fuente
En este estudio, los sujetos están expuestos a diferentes combinaciones de drogas y ejercicio a lo largo del tiempo y el resultado de interés es la presencia de cierta afección respiratoria (sí / no). Los pacientes se miden repetidamente cada 2 semanas durante 6 meses. En términos de software, uso SAS y R. Los 9 IV fueron elegidos por el investigador debido a su importancia científica.
Emilia
La inspección de datos es igual de mala, si no peor que usar la selección de modelos algorítmicos. La razón es que la selección del modelo algorítmico se entiende bien y puede ajustarse potencialmente; Mirar los datos y emplear un juicio subjetivo es un proceso que no puede ser replicado o ajustado. En cualquier caso, evitaría hacer la selección del modelo porque la selección del modelo invalida la inferencia. Como solo hay 9 covariables aquí, creo que el mejor consejo es trabajar con el modelo completo o con un modelo seleccionado basado solo en la sustancia.
user3903581
3

La selección del modelo se puede llevar a cabo mejor utilizando métodos de contracción como LASSO. Los métodos paso a paso son demasiado liberales. Se puede encontrar una justificación en la página web de Tibshirani. Si está utilizando R, existe un paquete llamado glmmLassoque permite la selección del modelo en modelos de efectos mixtos lineales generalizados utilizando el método de contracción LASSO.

Abderrahim Oulhaj
fuente
1

Una buena referencia para la selección de modelos mixtos basados ​​en AIC en R (también buena para tontos) sería Zuur_2009_Mixed_Effect_Models_and_Extensions_in_Ecology_with_R,

Jan Philipp S
fuente