Cómo usar splines cúbicas restringidas con el paquete de imputación de ratones R

8

Me pregunto cómo integrar splines cúbicas restringidas (como en el paquete rms) en los modelos de imputación dentro del paquete de imputación de ratones R.

Contexto : estoy haciendo una investigación biomédica y tengo acceso a un conjunto de datos que consta de las características del paciente y datos sobre la progresión de la enfermedad del paciente, junto a los resultados después de la atención médica (por ejemplo, un año de supervivencia). El objetivo es construir un modelo de predicción basado en las características del paciente y la progresión de la enfermedad para predecir la aparición de ciertos resultados. Por desgracia, algunos pacientes no tienen información completa sobre todas las variables. Como tal, he decidido utilizar múltiples técnicas de imputación para estimar (varias veces) cuáles serían estos valores faltantes.

Problema : cuando se usa la imputación múltiple, existe esta 'regla' llamada simpatía. Esto significa que la imputación requiere que el modelo estadístico utilizado para el análisis final (es decir, el modelo de predicción que quiero estudiar) también deba incluirse en el modelo de imputación (preferiblemente con información adicional agregada). Esto también significa tener en cuenta las posibles asociaciones no lineales. Como no sé si ciertos predictores tienen asociaciones no lineales con otros, me gustaría que los modelos de imputación puedan adaptarse a splines cúbicas restringidas. Sin embargo, realmente no entiendo cómo hacer esto en ratones. Por lo tanto, me gustaría recibir ayuda para crear modelos de imputación que permitan rcs, adecuados para ratones.


En una nota al margen a cualquier moderador: pensé que esta pregunta era adecuada para Crossvalidated ya que la imputación y las splines son temas 'estadísticos' específicos. Sin embargo, debido al enfoque en la naturaleza de programación de esta pregunta de 'cómo hacerlo', no me importaría que la pregunta se migre si cree que es más adecuada en otros lugares. Después de esta duda, también publiqué esta pregunta en StackOverflow ( /programming/45674088/how-to-use-restricted-cubic-splines-with-the-r-mice-imputation-package )

IWS
fuente
2
Si no recibe respuestas útiles, intentaré enviar un correo electrónico al mantenedor del paquete y luego publicar una respuesta a su pregunta aquí. No creo que obtendrá mucha ayuda adicional sobre R-help, ya que pueden considerarlo demasiado estadístico.
mdewey
1
@mdewey gracias por el consejo; Intentaré volver si hay algo que mostrar
IWS
2
Agregué una recompensa; pero, como señalé, creo que esto está innecesariamente limitado. Es decir, una pregunta más importante es cómo lidiar con los datos faltantes con splines. Quizás el paquete perturb sería bueno.
Peter Flom
1
@PeterFlom Gracias por colocar la recompensa. Admitiré que pedir una funcionalidad específica dentro del paquete de ratones es limitante. Examinaré el paquete perturb para ver qué puedo aprender de él. Como sugirió en el texto de recompensa, y en su pregunta aquí: stats.stackexchange.com/questions/301017/… , tener una respuesta general sobre si las asociaciones no lineales durante la imputación se suman al manejo de los datos faltantes, es de gran interés.
IWS

Respuestas:

4

Tiene razón en que el modelo de imputación debe ser tan rico o más rico que el modelo de resultados. El hecho de que la imputación basada en la estimación de máxima verosimilitud total y la imputación realizada miceasumiendo la linealidad en todas partes fue una razón principal por la que escribí la función de Hmiscpaquete R aregImpute, que crea modelos de imputación automáticamente usando modelos aditivos con splines cúbicos restringidos. Por lo tanto, no se supone linealidad para la imputación múltiple. El enfoque predeterminado en aregImputees coincidencia media predictiva, que generalmente prefiero a enfoques más paramétricos (todavía se usan splines; PMM es menos paramétrico en el lado izquierdo de los modelos).

Como mice, aregImputeusa ecuaciones encadenadas. A diferencia mice, utiliza sorteos bootstrap en lugar de sorteos bayesianos posteriores aproximados (asumiendo normalidad multivariada).

Frank Harrell
fuente
1
He aceptado esta respuesta porque @ frank-harrel aborda adecuadamente el manejo de posibles asociaciones no lineales durante la imputación en la configuración general. Para aquellos interesados, ya estaba trabajando en modelos de imputación (por ejemplo, PMM, regresión lineal, regresión logística) que son compatibles con el paquete de ratones R y permiten splines cúbicos restringidos. Publicaré esto como respuesta aquí por razones de integridad más adelante, pero estos modelos no serán probados. Entonces, para aquellos con un problema similar, mire y use aregImpute.
IWS
1
@IWS sería una buena contribución, y puede seguir probándolo (incluso mostrando resultados idénticos micecuando se usan cero nudos (linealidad)) que sería una buena parte de un paquete R. Al hacer esto, puede comparar micey aregImputecodificar para ver dónde micees un poco lento y podría acelerarse.
Frank Harrell