Imputación múltiple y selección de modelos.

21

La imputación múltiple es bastante sencilla cuando tiene un modelo lineal a priori que desea estimar. Sin embargo, las cosas parecen ser un poco más complicadas cuando realmente desea hacer una selección de modelo (por ejemplo, encontrar el "mejor" conjunto de variables predictoras de un conjunto más grande de variables candidatas; estoy pensando específicamente en LASSO y polinomios fraccionales usando R).

Una idea sería ajustar el modelo en los datos originales con valores faltantes, y luego volver a estimar este modelo en conjuntos de datos MI y combinar estimaciones como lo haría normalmente. Sin embargo, esto parece problemático ya que espera un sesgo (¿o por qué el MI en primer lugar?), Lo que podría llevar a seleccionar un modelo "incorrecto" desde el principio.

Otra idea sería pasar por el proceso de selección de modelo que esté utilizando en cada conjunto de datos MI, pero ¿cómo combinaría los resultados si incluyen diferentes conjuntos de variables?

Pensé que tenía que apilar un conjunto de conjuntos de datos de MI y analizarlos como un conjunto de datos grande que luego usaría para ajustar un modelo único, "mejor", e incluir un efecto aleatorio para tener en cuenta el hecho de que está utilizando medidas repetidas para cada observación

¿Suena esto razonable? O tal vez increíblemente ingenuo? Cualquier sugerencia sobre este tema (selección de modelo con imputación múltiple) sería muy apreciada.

DL Dahly
fuente
2
Edite esta publicación para cambiar "ajuste de modelo" a "selección de modelo". También sería útil analizar qué método está utilizando. Por ejemplo, si se usa la selección de modelo por pasos basada en valores p, entonces NO está permitido apilar datos imputados. Puede dibujar muestras de arranque de sus datos, incluidos los datos faltantes, aplicar MI y el proceso de selección de modelo posterior y calcular un "valor p" exacto para el modelo seleccionado.
AdamO
En su segundo párrafo, ¿por qué cree que ese método pierde el punto de imputación múltiple? Además, ¿qué software estás usando?
Peter Flom - Restablece a Monica

Respuestas:

10

Hay muchas cosas que puede hacer para seleccionar variables de datos imputados de manera múltiple, pero no todas producen estimaciones apropiadas. Ver Wood et al (2008) Stat Med para una comparación de varias posibilidades.

El siguiente procedimiento de dos pasos me ha resultado útil en la práctica.

  1. Aplicar el método de selección de variables preferida de forma independiente para cada uno de los imputada conjuntos de datos. Terminarás con modelos diferentes. Para cada variable, cuente la cantidad de veces que aparece en el modelo. Seleccione las variables que aparecen en al menos la mitad de los modelos.m mmmm
  2. Utilice el valor p del estadístico de Wald o de la prueba de razón de verosimilitud calculada a partir de los conjuntos de datos de imputación múltiple como criterio para la selección adicional del modelo por etapas.m

El paso 1 de preselección se incluye para reducir la cantidad de cómputo. Consulte http://www.stefvanbuuren.nl/mi/FIMDmaterials/src/fimd6.r.txt (sección 6.4.2) para ver un ejemplo de código del método de dos pasos en R usando mice(). En Stata, puede realizar el Paso 2 (en todas las variables) con mim:stepwise.

Stef van Buuren
fuente
Stef, incluya el enlace a la publicación Stat Med. Traté de embellecer tu respuesta también un poco.
StasK
1
La rutina propuesta puede tener sentido solo cuando selecciona de un conjunto de regresores especificados previamente. Pero si elijo decir una tendencia cuadrática, splines B de 5 y 9 nudos, y puede ser un CARRITO, no estoy seguro de cómo aplicar esta propuesta.
StasK
Stas, el procedimiento supone que el modelo de imputación es correcto. En particular, el método de imputación debe capturar adecuadamente todas las características de los datos en los que pueda estar interesado más adelante. Entonces, si desea incluir términos cuadráticos o B-splines en su análisis de datos completos, entonces el modelo de imputación debe configurarse de tal manera que esas características se conserven en los datos imputados (Nota: esto puede ser realmente difícil de lograr , pero ese es un tema en sí mismo). Dado que el modelo de imputación está correctamente especificado, diría que se aplica el procedimiento de selección de dos pasos.
Stef van Buuren
Bueno, entonces básicamente el modelo de imputación debe ser el modelo más rico posible. Me he encontrado con situaciones en las que eso no funciona del todo, como predicciones perfectas en modelos logísticos sobre parametrizados.
StasK
Convenido. Tendrá que imputar bajo el modelo más rico posible. Por lo tanto, primero defina los análisis más complejos que le gustaría hacer y adapte el modelo de imputación a eso. Esto puede ser difícil de lograr en la práctica y se vuelve más difícil a medida que crece la complejidad del modelo de datos completos. No hay almuerzo gratis. La predicción perfecta en la regresión logística se ha resuelto de varias maneras, y no necesita presentar un obstáculo importante.
Stef van Buuren
4

Es sencillo: puede aplicar reglas de combinación MI estándar, pero los efectos de las variables que no son compatibles con los conjuntos de datos imputados serán menos pronunciados. Por ejemplo, si una variable no se selecciona en un conjunto de datos imputado específico, su estimación (incluida la varianza) es cero y esto debe reflejarse en las estimaciones utilizadas cuando se utiliza la imputación múltiple. Puede considerar el arranque para construir intervalos de confianza para incorporar la incertidumbre en la selección del modelo, eche un vistazo a esta publicación reciente que aborda todas las preguntas: http://www.sciencedirect.com/science/article/pii/S016794731300073X

Evitaría usar enfoques pragmáticos, como seleccionar una variable si se selecciona en conjuntos de datos m / 2 o algo similar, porque la inferencia no es clara y más complicada de lo que parece a primera vista.

Miguel
fuente
3

Estaba teniendo el mismo problema.

Mi elección fue el llamado "lazo de imputación múltiple". Básicamente combina todos los conjuntos de datos imputados y adopta el concepto de lazo grupal: cada variable candidata generaría m variables ficticias. Cada variable ficticia corresponde a un conjunto de datos imputado.

Luego, todas las variables ficticias m se agrupan. puede descartar las variables ficticias m de una variable candidata en todos los conjuntos de datos imputados o mantenerlas en todos los conjuntos de datos imputados.

Por lo tanto, la regresión del lazo realmente se ajusta a todos los conjuntos de datos imputados conjuntamente.

Revisa el papel :

Chen, Q. y Wang, S. (2013). "Selección variable para datos de imputación múltiple con aplicación al estudio de exposición a dioxinas", Statistics in Medicine, 32: 3646-59.

Y un programa relevante de R

Fan Wang
fuente
Creo que realmente te
envié
1

He estado enfrentando un problema similar: tengo un conjunto de datos en el que sabía desde el principio que quería incluir todas las variables (me interesaban más los coeficientes que la predicción), pero no sabía a priori qué interacciones deben especificarse.

Mi enfoque era escribir un conjunto de modelos candidatos, realizar múltiples imputaciones, estimar los múltiples modelos y simplemente guardar y promediar los AIC de cada modelo. Se seleccionó la especificación del modelo con el promedio más bajo de AIC.

Pensé en agregar una corrección en la que penalizara la varianza entre imputaciones en AIC. En la reflexión, sin embargo, esto parecía inútil.

El enfoque me pareció bastante sencillo, pero lo inventé yo mismo y no soy un estadístico famoso. Antes de usarlo, es posible que desee esperar hasta que la gente me corrija (¡lo cual sería bienvenido!) O votara esta respuesta.

genérico_usuario
fuente
Gracias por la respuesta. Desafortunadamente, lo que realmente me interesa es utilizar métodos más automatizados / exploratorios de selección de modelos que no se prestan a seleccionar primero un conjunto razonable de modelos candidatos.
DL Dahly