Estoy buscando consejos sobre cómo analizar datos de encuestas complejas con modelos multinivel en R. He usado el survey
paquete para ponderar las probabilidades desiguales de selección en modelos de un nivel, pero este paquete no tiene funciones para el modelado multinivel. El lme4
paquete es excelente para el modelado multinivel, pero no sé cómo incluir pesos en diferentes niveles de agrupación. Asparouhov (2006) plantea el problema:
Los modelos multinivel se utilizan con frecuencia para analizar datos de diseños de muestreo por conglomerados. Sin embargo, tales diseños de muestreo a menudo utilizan una probabilidad desigual de selección a nivel de conglomerado y a nivel individual. Los pesos de muestreo se asignan en uno o ambos niveles para reflejar estas probabilidades. Si se ignoran los pesos de muestreo en cualquier nivel, las estimaciones de los parámetros pueden estar sustancialmente sesgadas.
Un enfoque para los modelos de dos niveles es el estimador de pseudo-máxima verosimilitud de múltiples niveles (MPML) que se implementa en MPLUS ( Asparouhov et al,? ). Carle (2009) revisa los principales paquetes de software y hace algunas recomendaciones sobre cómo proceder:
Para llevar a cabo MLM correctamente con datos de encuestas complejas y pesos de diseño, los analistas necesitan un software que pueda incluir pesos escalados fuera del programa e incluir los "nuevos" pesos escalados sin modificación automática del programa. Actualmente, tres de los principales programas de software MLM permiten esto: Mplus (5.2), MLwiN (2.02) y GLLAMM. Desafortunadamente, ni HLM ni SAS pueden hacer esto.
West y Galecki (2013) ofrecen una revisión más actualizada, y citaré el pasaje relevante en detalle:
Ocasionalmente, los analistas desean ajustar los LMM a los conjuntos de datos de encuestas recopilados de muestras con diseños complejos (ver Heeringa et al, 2010, Capítulo 12). Los diseños de muestras complejas generalmente se caracterizan por la división de la población en estratos, la selección en etapas múltiples de grupos de individuos dentro de los estratos y las probabilidades desiguales de selección para ambos grupos y los individuos finales muestreados. Estas probabilidades desiguales de selección generalmente conducen a la construcción de pesos de muestreo para los individuos, lo que garantiza una estimación imparcial de los parámetros descriptivos cuando se incorporan a un análisis. Estos pesos podrían ajustarse aún más para la no respuesta de la encuesta y calibrarse para los totales de población conocidos. Tradicionalmente, los analistas podrían considerar un enfoque basado en el diseño para incorporar estas características de muestreo complejas al estimar los modelos de regresión (Heeringa et al., 2010). Más recientemente, los estadísticos han comenzado a explorar enfoques basados en modelos para analizar estos datos, utilizando LMM para incorporar efectos fijos de estratos de muestreo y efectos aleatorios de grupos de muestras.
La principal dificultad con el desarrollo de enfoques basados en modelos para analizar estos datos ha sido elegir los métodos apropiados para incorporar los pesos de muestreo (ver Gelman, 2007 para un resumen de los problemas). Pfeffermann y col. (1998), Asparouhov y Muthen (2006), y Rabe-Hesketh y Skrondal (2006) han desarrollado una teoría para estimar modelos multinivel de una manera que incorpora los pesos de la encuesta, y Rabe-Hesketh y Skrondal (2006), Carle (2009) y Heeringa et al. (2010, Capítulo 12) han presentado aplicaciones que utilizan procedimientos de software actuales, pero este sigue siendo un área activa de investigación estadística. Los procedimientos de software capaces de ajustar LMM se encuentran en diversas etapas de implementación de los enfoques que se han propuesto en la literatura hasta ahora para incorporar características de diseño complejas, y los analistas deben tener esto en cuenta al ajustar LMM a datos de encuestas de muestra complejas. Los analistas interesados en ajustar los LMM a los datos recopilados de encuestas de muestras complejas se sentirán atraídos por los procedimientos que son capaces de incorporar correctamente los pesos de las encuestas en los procedimientos de estimación (HLM, MLwiN, Mplus, xtmixed y gllamm), de acuerdo con la literatura actual en este zona.
Esto me lleva a mi pregunta: ¿alguien tiene recomendaciones de mejores prácticas para ajustar LMM a datos de encuestas complejas en R?
fuente
i've never said it before
con esta publicación sobre addhealth pueden ser de interés ... :(lmer
función en ellme4
paquete permite la especificación de unweights
argumento para el proceso de ajuste del modelo, por lo que si tiene pesos de diseño fijos, debería poder incorporarlos con ese argumento. ¿Tengo el extremo equivocado del palo aquí? ¿Hay alguna razón por la cual esto es inadecuado para sus necesidades?Respuestas:
Hasta donde sé, no puedes hacer esto en R en este momento, si realmente necesitas un modelo mixto (por ejemplo, si te interesan los componentes de varianza)
El argumento de los pesos para
lme4::lmer()
no hacer lo que desea, porquelmer()
interpreta los pesos como pesos de precisión, no como pesos de muestreo. A diferencia de los modelos lineales ordinarios y lineales generalizados, ni siquiera obtiene estimaciones puntuales correctas con un código que trata los pesos de muestreo como pesos de precisión para un modelo mixto.Si no necesita estimar los componentes de varianza y solo desea que las características multinivel del modelo obtengan los errores estándar correctos que puede usar
survey::svyglm()
.fuente
El paquete WeMix ahora es una opción, al menos para modelos multinivel lineales y logísticos. Sin embargo, parece muy lento, en comparación con la ejecución de estos modelos en Stata o MPlus.
fuente
También estoy enfrentando el mismo problema. Después de haber buscado mucho en los últimos días, descubrí que el paquete BIFIEsurvey es el más cercano al análisis de modelos multinivel con datos de encuestas complejas con pesos de muestra y réplica, y valores plausibles: https://cran.r-project.org/web /packages/BIFIEsurvey/index.html Sin embargo, el paquete está restringido a modelos de dos niveles. También he leído que el autor del paquete "intsvy" planea a largo plazo hacer "intsvy" para poder analizar modelos multinivel, pero a partir de hoy todavía no puede. Si hay algún progreso con respecto a la solución a este problema que podría haber pasado por alto accidentalmente, sería feliz si alguien pudiera compartirlo.
fuente