La imputación múltiple es bastante sencilla cuando tiene un modelo lineal a priori que desea estimar. Sin embargo, las cosas parecen ser un poco más complicadas cuando realmente desea hacer una selección de modelo (por ejemplo, encontrar el "mejor" conjunto de variables predictoras de un conjunto más grande de variables candidatas; estoy pensando específicamente en LASSO y polinomios fraccionales usando R).
Una idea sería ajustar el modelo en los datos originales con valores faltantes, y luego volver a estimar este modelo en conjuntos de datos MI y combinar estimaciones como lo haría normalmente. Sin embargo, esto parece problemático ya que espera un sesgo (¿o por qué el MI en primer lugar?), Lo que podría llevar a seleccionar un modelo "incorrecto" desde el principio.
Otra idea sería pasar por el proceso de selección de modelo que esté utilizando en cada conjunto de datos MI, pero ¿cómo combinaría los resultados si incluyen diferentes conjuntos de variables?
Pensé que tenía que apilar un conjunto de conjuntos de datos de MI y analizarlos como un conjunto de datos grande que luego usaría para ajustar un modelo único, "mejor", e incluir un efecto aleatorio para tener en cuenta el hecho de que está utilizando medidas repetidas para cada observación
¿Suena esto razonable? O tal vez increíblemente ingenuo? Cualquier sugerencia sobre este tema (selección de modelo con imputación múltiple) sería muy apreciada.
fuente
Respuestas:
Hay muchas cosas que puede hacer para seleccionar variables de datos imputados de manera múltiple, pero no todas producen estimaciones apropiadas. Ver Wood et al (2008) Stat Med para una comparación de varias posibilidades.
El siguiente procedimiento de dos pasos me ha resultado útil en la práctica.
El paso 1 de preselección se incluye para reducir la cantidad de cómputo. Consulte http://www.stefvanbuuren.nl/mi/FIMDmaterials/src/fimd6.r.txt (sección 6.4.2) para ver un ejemplo de código del método de dos pasos en R usando
mice()
. En Stata, puede realizar el Paso 2 (en todas las variables) conmim:stepwise
.fuente
Es sencillo: puede aplicar reglas de combinación MI estándar, pero los efectos de las variables que no son compatibles con los conjuntos de datos imputados serán menos pronunciados. Por ejemplo, si una variable no se selecciona en un conjunto de datos imputado específico, su estimación (incluida la varianza) es cero y esto debe reflejarse en las estimaciones utilizadas cuando se utiliza la imputación múltiple. Puede considerar el arranque para construir intervalos de confianza para incorporar la incertidumbre en la selección del modelo, eche un vistazo a esta publicación reciente que aborda todas las preguntas: http://www.sciencedirect.com/science/article/pii/S016794731300073X
Evitaría usar enfoques pragmáticos, como seleccionar una variable si se selecciona en conjuntos de datos m / 2 o algo similar, porque la inferencia no es clara y más complicada de lo que parece a primera vista.
fuente
Estaba teniendo el mismo problema.
Mi elección fue el llamado "lazo de imputación múltiple". Básicamente combina todos los conjuntos de datos imputados y adopta el concepto de lazo grupal: cada variable candidata generaría m variables ficticias. Cada variable ficticia corresponde a un conjunto de datos imputado.
Luego, todas las variables ficticias m se agrupan. puede descartar las variables ficticias m de una variable candidata en todos los conjuntos de datos imputados o mantenerlas en todos los conjuntos de datos imputados.
Por lo tanto, la regresión del lazo realmente se ajusta a todos los conjuntos de datos imputados conjuntamente.
Revisa el papel :
Chen, Q. y Wang, S. (2013). "Selección variable para datos de imputación múltiple con aplicación al estudio de exposición a dioxinas", Statistics in Medicine, 32: 3646-59.
Y un programa relevante de R
fuente
He estado enfrentando un problema similar: tengo un conjunto de datos en el que sabía desde el principio que quería incluir todas las variables (me interesaban más los coeficientes que la predicción), pero no sabía a priori qué interacciones deben especificarse.
Mi enfoque era escribir un conjunto de modelos candidatos, realizar múltiples imputaciones, estimar los múltiples modelos y simplemente guardar y promediar los AIC de cada modelo. Se seleccionó la especificación del modelo con el promedio más bajo de AIC.
Pensé en agregar una corrección en la que penalizara la varianza entre imputaciones en AIC. En la reflexión, sin embargo, esto parecía inútil.
El enfoque me pareció bastante sencillo, pero lo inventé yo mismo y no soy un estadístico famoso. Antes de usarlo, es posible que desee esperar hasta que la gente me corrija (¡lo cual sería bienvenido!) O votara esta respuesta.
fuente