Tengo una gran encuesta en la que se les preguntó a los estudiantes, entre otras cosas, el nivel de educación de su madre. Algunos lo omitieron y otros respondieron erróneamente. Lo sé porque allí se entrevistó a una submuestra de los encuestados iniciales de la madre y se les hizo la misma pregunta. (Estoy seguro de que también hay una cantidad menor de error asociada con las respuestas de las madres).
Mi desafío es decidir cómo aprovechar mejor esta segunda fuente de datos más confiable. Por lo menos, puedo usarlo para imputar datos faltantes de manera más inteligente de lo que podría hacerlo si solo pudiera confiar en casos completos. Pero si 3/4 de los niños cuyos datos puedo verificar, que responden "Mi madre nunca terminó la escuela primaria" están contradiciendo la respuesta de su madre, entonces parece que debería usar la imputación para crear múltiples conjuntos de datos para capturar la incertidumbre allí. [agregado: dije 3/4 para hacer un punto, pero ahora que he revisado los datos también podría decirte que más del 40% son discrepantes]
Personalmente, utilizaré la educación de la madre como predictor en un modelo mixto, pero si alguien tiene algo que decir sobre otras situaciones, también me encantaría conocerlas.
Me encantaría recibir consejos en grandes rasgos o en detalles. ¡Gracias!
Actualización : por ahora dejo la pregunta sin resolver, aunque aprecio las respuestas de Will y Conjugate_Prior, tengo la esperanza de recibir comentarios más específicos y técnicos.
El diagrama de dispersión a continuación le dará una idea de cómo se relacionan las dos variables en los 10,000 casos en que ambas existen. Están anidados, en más de 100 escuelas. Se correlacionan en 0.78, Respuesta del estudiante: media: 5.12 sd = 2.05, Respuesta de la madre, media = 5.02, sd = 1.92 Falta la respuesta del estudiante en aproximadamente el 15% de los casos.
fuente
Respuestas:
Lo primero que debe tener en cuenta es que sus variables son: "lo que dijo el alumno sobre la educación de la madre" y "lo que dijo la madre del alumno sobre la educación de la madre del alumno". Llámalos S y M respectivamente, y etiqueta el nivel verdadero no observado de la educación de la madre como T.
S y M tienen valores perdidos y no hay nada de malo (módulo la observación a continuación) al poner a M y S en un modelo de imputación, pero solo usando uno de ellos en el análisis posterior. Al revés siempre sería desaconsejable.
Esto es independiente de otras tres preguntas:
Ignorancia y falta
Puede que le interese T, pero no necesariamente: las percepciones de logro educativo (a través de S, y posiblemente M) o la falta de conocimiento del estudiante pueden ser más causalmente interesantes que la propia T. La imputación puede ser una ruta sensata para el primero, pero puede ser o no para el segundo. Tu tienes que decidir.
Aprendiendo sobre T
Digamos que realmente está interesado en T. En ausencia de una medición estándar de oro (ya que a veces duda de M) es difícil saber cómo podría combinar S y M de manera no arbitraria para aprender sobre T. Si, por otro lado, usted fuera dispuesto a tratar la M como correcta cuando esté disponible, entonces podría usar S para predecir M en un modelo de clasificación que contiene otra información de los estudiantes y luego usar M en lugar de S en el análisis final. La preocupación aquí sería sobre el sesgo de selección en los casos en los que entrenó, lo que lleva al tercer problema:
Falta
Si la imputación múltiple puede funcionar depende de si faltan datos al azar por completo (MCAR) o si faltan al azar (MAR). ¿Falta S al azar (MAR)? Quizás no, ya que los estudiantes podrían avergonzarse de responder sobre la falta de educación de su madre y omitir la pregunta. Entonces, el valor solo determina si faltará y la imputación múltiple no puede ayudar aquí. Por otro lado, si la educación de baja covarianza con algo que se pregunta y se responde parcialmente en la encuesta, por ejemplo, algún indicador de ingresos, entonces MAR puede ser más razonable y la imputación múltiple tiene algo que controlar. ¿Falta M al azar? Se aplican las mismas consideraciones.
Finalmente, incluso si eres interesante en T y adoptas un enfoque de clasificación, aún querrás imputarlo para que se ajuste a ese modelo.
fuente
Si va a suponer que la "tasa de contradicción" es la misma para toda la muestra que para la submuestra cuyas madres fueron encuestadas, entonces la submuestra debe haberse dibujado al azar. En su descripción no dice, por lo que planteo este problema porque creo que tiene implicaciones importantes sobre cómo o si puede usar esta información de la submuestra para sacar conclusiones sobre la muestra completa de estudiantes.
Me parece que hay tres facetas en este problema de contradicción.
1 es la tasa de contradicción. ¿Es realmente el caso que 3/4 de los estudiantes adivinaron mal?
2 es el grado de error: una cosa es decir que tu madre nunca terminó la escuela primaria cuando de hecho la completó, pero se detuvo allí y otra muy distinta es decir que nunca completó la escuela primaria cuando tiene un doctorado.
3 es la proporción de la muestra que puede verificar. Si está sacando estas conclusiones en una submuestra de 20, apuesto a que las estimaciones son bastante inestables y probablemente no valen mucho.
Me parece que lo que hagas dependerá de tu respuesta a estas preguntas y a la pregunta que planteé inicialmente. Por ejemplo, si 1 es bastante alto y 3 es bastante alto, entonces podría usar la submuestra y terminar con ella. Si 1 es alto pero 2 es bajo, entonces el problema no parece ser tan malo y, nuevamente, puede que no valga la pena molestarse.
Probablemente también valga la pena saber si el error es aleatorio o sistemático. Si los estudiantes tienden a subestimar sistemáticamente la educación de su madre, entonces eso es más problemático que si a veces se equivocan totalmente.
He hecho algunas imputaciones en un par de documentos y, como resultado, siempre me creo más problemas. Los revisores, al menos en mi área, a menudo no tienen un buen manejo del método y, por lo tanto, sospechan de su uso. Siento que a veces es mejor, desde el punto de vista de la publicación, simplemente reconocer el problema y seguir adelante. Pero en este caso, en realidad no está "imputando datos faltantes", sino que está introduciendo algún tipo de varianza de error prevista para la variable. Es una pregunta muy interesante y, dejando de lado todas las inquietudes, ni siquiera estoy seguro de cómo haría esto si decidiera que es el mejor curso de acción.
fuente