Me pregunto cómo integrar splines cúbicas restringidas (como en el paquete rms) en los modelos de imputación dentro del paquete de imputación de ratones R.
Contexto : estoy haciendo una investigación biomédica y tengo acceso a un conjunto de datos que consta de las características del paciente y datos sobre la progresión de la enfermedad del paciente, junto a los resultados después de la atención médica (por ejemplo, un año de supervivencia). El objetivo es construir un modelo de predicción basado en las características del paciente y la progresión de la enfermedad para predecir la aparición de ciertos resultados. Por desgracia, algunos pacientes no tienen información completa sobre todas las variables. Como tal, he decidido utilizar múltiples técnicas de imputación para estimar (varias veces) cuáles serían estos valores faltantes.
Problema : cuando se usa la imputación múltiple, existe esta 'regla' llamada simpatía. Esto significa que la imputación requiere que el modelo estadístico utilizado para el análisis final (es decir, el modelo de predicción que quiero estudiar) también deba incluirse en el modelo de imputación (preferiblemente con información adicional agregada). Esto también significa tener en cuenta las posibles asociaciones no lineales. Como no sé si ciertos predictores tienen asociaciones no lineales con otros, me gustaría que los modelos de imputación puedan adaptarse a splines cúbicas restringidas. Sin embargo, realmente no entiendo cómo hacer esto en ratones. Por lo tanto, me gustaría recibir ayuda para crear modelos de imputación que permitan rcs, adecuados para ratones.
En una nota al margen a cualquier moderador: pensé que esta pregunta era adecuada para Crossvalidated ya que la imputación y las splines son temas 'estadísticos' específicos. Sin embargo, debido al enfoque en la naturaleza de programación de esta pregunta de 'cómo hacerlo', no me importaría que la pregunta se migre si cree que es más adecuada en otros lugares. Después de esta duda, también publiqué esta pregunta en StackOverflow ( /programming/45674088/how-to-use-restricted-cubic-splines-with-the-r-mice-imputation-package )
Respuestas:
Tiene razón en que el modelo de imputación debe ser tan rico o más rico que el modelo de resultados. El hecho de que la imputación basada en la estimación de máxima verosimilitud total y la imputación realizada
mice
asumiendo la linealidad en todas partes fue una razón principal por la que escribí la función deHmisc
paquete RaregImpute
, que crea modelos de imputación automáticamente usando modelos aditivos con splines cúbicos restringidos. Por lo tanto, no se supone linealidad para la imputación múltiple. El enfoque predeterminado enaregImpute
es coincidencia media predictiva, que generalmente prefiero a enfoques más paramétricos (todavía se usan splines; PMM es menos paramétrico en el lado izquierdo de los modelos).Como
mice
,aregImpute
usa ecuaciones encadenadas. A diferenciamice
, utiliza sorteos bootstrap en lugar de sorteos bayesianos posteriores aproximados (asumiendo normalidad multivariada).fuente
mice
cuando se usan cero nudos (linealidad)) que sería una buena parte de un paquete R. Al hacer esto, puede compararmice
yaregImpute
codificar para ver dóndemice
es un poco lento y podría acelerarse.