Tengo un conjunto de datos médicos con aproximadamente 200 variables. Una de las variables es un marcador biológico (concentración de una enzima particular). Su distribución es correcta, y el problema es que los valores por encima de cierto nivel están censurados / cortados en ese nivel. Entonces, mientras que la media de la variable es de alrededor de 10, cualquier valor mayor que 50 se registra como 50.
Me gustaría imputar valores continuos para esos valores censurados. Actualmente estoy usando la imputación múltiple con el paquete de ratones en R, aunque tengo otros sistemas disponibles y estoy abierto a otros enfoques. Un pensamiento que tuve fue recodificar todos esos valores censurados que faltaban y luego ejecutar las imputaciones. Si alguno de los valores imputados que originalmente fueron censurados está por debajo del límite, entonces se les asignará el valor límite.
Me gustaría saber opiniones sobre esto, y / o cualquier otro método mejor para lidiar con esto.
fuente
Respuestas:
Cualquier método de imputación, incluida la imputación múltiple, es una toma en la oscuridad si no puede tomar en cuenta cómo se distribuyen los datos por encima de 50. Como tiene 200 variables, ¿alguna de ellas está correlacionada con el biomarcador? Si pudiera ajustar una regresión para el biomarcador en función de las covariables, podría usar ese modelo para predecir los valores de los truncados. Podría aplicar un error a la predicción en función de la varianza residual en el modelo para generar múltiples imputaciones de esa manera. Sería más sensato. Por supuesto, esto supone que puede encontrar un modelo válido y que los residuos tienen cero media y varianza constante. Solo se ajustarían los valores de biomarcadores no truncados para construir el modelo.
fuente