Tratamiento de los niveles de variables categóricas 'No sabe / se niega'
9
Estoy modelando la predicción de diabetes usando la regresión logística. El conjunto de datos utilizado es el Sistema de Vigilancia de Factores de Riesgo del Comportamiento (BRFSS) del Centro para el Control de Enfermedades (CDC). Una de las variables independientes es la presión arterial alta. Es categórico con los siguientes niveles 'Sí', 'No', 'No sabe / se niega'. ¿Debo eliminar esas filas con 'No sabe / rechazado' mientras construyo el modelo? ¿Qué diferencia hay para mantener o eliminar esas filas del modelo?
Me preguntaba exactamente la misma pregunta al analizar los últimos datos de la Encuesta de alta hospitalaria nacional . Varias variables tienen valores faltantes sustanciales, como el estado civil y el tipo de procedimiento. Este problema me llamó la atención porque estas categorías aparecieron con efectos fuertes (y significativos) en la mayoría de los análisis de regresión logística que estaba ejecutando.
Uno se pregunta por quéSe da un código faltante. En el caso del estado civil, por ejemplo, es plausible que el hecho de no proporcionar esta información pueda estar relacionado con factores importantes como el estado socioeconómico o el tipo de enfermedad. En su caso de presión arterial alta, debemos preguntarnos por qué no se conocería o rechazaría el valor. Esto podría estar relacionado con las prácticas en la institución (quizás reflejando procedimientos laxos) o incluso con los individuos (como las creencias religiosas). Esas características a su vez podrían estar asociadas con la diabetes. Por lo tanto, parece prudente continuar como lo ha hecho, en lugar de codificar estos valores como faltantes (excluyéndolos por completo del análisis) o intentar imputar los valores (que enmascaran efectivamente la información que proporcionan y podrían sesgar los resultados). Realmente ya no es más difícil de hacer: solo tiene que asegurarse de que esta variable se trate como categórica y obtendrá un coeficiente más en la salida de regresión. Además, sospecho que los conjuntos de datos BRFSS son lo suficientemente grandes como para que no tenga que preocuparse por el poder.
Además, DK podría tener un significado real, es decir, esas personas no son conscientes de la salud y podrían estar en riesgo.
Brandon Bertelsen
2
Primero debe pensar si los datos faltantes faltan completamente al azar (MCAR), faltan al azar (MAR) o faltan no al azar (MNAR), ya que la eliminación (en otras palabras, el análisis de casos completos) puede conducir a resultados sesgados. Las alternativas son la ponderación de probabilidad inversa, la imputación múltiple, el método de probabilidad completa y los métodos doblemente robustos. La imputación múltiple con ecuaciones encadenadas (MICE) es a menudo la forma más fácil de hacerlo.
Gracias. Es una Encuesta de Datos y no estoy seguro si es MAR o MNAR. Por ejemplo, hay una variable que dice 1) "si una persona tiene diabetes o no?" y otra variable (2) ¿Si está tomando insulina? Veo que la variable (2) tiene entradas solo cuando la variable (1) es 'Sí' (es decir, una persona es diabética). De lo contrario (2) está vacío. Además (2) tiene 'sí', 'No', 'No sabe / se negó' como respuestas para el caso de la diabetes. Entonces, ¿cómo trato las celdas vacías y las respuestas de la encuesta 'No sabe / rechazó'?
user3897
Me gustaría aprender sobre la imputación múltiple y estaba buscando un material de aprendizaje en línea. ¿Podría sugerir algún material de aprendizaje para MI?
user3897
0
¿Tiene alguna razón para pensar que los sujetos de estudio con diabetes tenían más o menos probabilidades de terminar con la respuesta DK / R? De lo contrario (y me sorprendería saber que lo hizo), incluir este predictor en el modelo sin excluir estos casos generará ruido. Es decir, terminará con menos precisión en su evaluación de cómo "sí" frente a "no" influye en la probabilidad estimada de diabetes (porque intentará modelar la influencia de "sí" o "no" frente a respuestas aleatorias DK / R en lugar de simplemente "sí" frente a "no"). La opción más directa es excluir los casos con respuestas DK / R. Suponiendo que sus respuestas de "sí / no" faltaron al azar, excluirlas no sesgará su estimación de la influencia de "sí" vs. "No." Sin embargo, ese enfoque reducirá el tamaño de la muestra y, por lo tanto, reducirá el poder estadístico con respecto a los predictores restantes. Si tiene una gran cantidad de DK / R en esta variable, es posible que desee imputar respuestas de "sí" / "no" por imputación múltiple (posiblemente la estrategia de imputación de valor perdido defendible más, quizás la única).
Primero debe pensar si los datos faltantes faltan completamente al azar (MCAR), faltan al azar (MAR) o faltan no al azar (MNAR), ya que la eliminación (en otras palabras, el análisis de casos completos) puede conducir a resultados sesgados. Las alternativas son la ponderación de probabilidad inversa, la imputación múltiple, el método de probabilidad completa y los métodos doblemente robustos. La imputación múltiple con ecuaciones encadenadas (MICE) es a menudo la forma más fácil de hacerlo.
fuente
¿Tiene alguna razón para pensar que los sujetos de estudio con diabetes tenían más o menos probabilidades de terminar con la respuesta DK / R? De lo contrario (y me sorprendería saber que lo hizo), incluir este predictor en el modelo sin excluir estos casos generará ruido. Es decir, terminará con menos precisión en su evaluación de cómo "sí" frente a "no" influye en la probabilidad estimada de diabetes (porque intentará modelar la influencia de "sí" o "no" frente a respuestas aleatorias DK / R en lugar de simplemente "sí" frente a "no"). La opción más directa es excluir los casos con respuestas DK / R. Suponiendo que sus respuestas de "sí / no" faltaron al azar, excluirlas no sesgará su estimación de la influencia de "sí" vs. "No." Sin embargo, ese enfoque reducirá el tamaño de la muestra y, por lo tanto, reducirá el poder estadístico con respecto a los predictores restantes. Si tiene una gran cantidad de DK / R en esta variable, es posible que desee imputar respuestas de "sí" / "no" por imputación múltiple (posiblemente la estrategia de imputación de valor perdido defendible más, quizás la única).
fuente