Estoy ejecutando una regresión logit binaria donde sé que la variable dependiente está mal codificada en un pequeño porcentaje de casos. Así que estoy tratando de estimar en este modelo:
Pero en lugar del vector , tengo , que incluye algunos errores aleatorios (es decir, , pero , o viceversa, para algunos ).
¿Existe una corrección (razonablemente) simple para este problema?
Sé que logit tiene algunas buenas propiedades en los estudios de casos y controles. Parece probable que algo similar se aplique aquí, pero no he podido encontrar una buena solución.
Algunas otras restricciones: esta es una aplicación de minería de texto, por lo que las dimensiones de son grandes (en miles o decenas de miles). Esto puede descartar algunos procedimientos computacionalmente intensivos.
Además, no me importa estimar correctamente , solo .
Puede estimar un modelo paramétrico del error usando MLE, o puede usar un enfoque semiparamétrico basado en algo como el estimador de correlación de rango máximo (MRC). Computacionalmente, MRC es prohibitivo para muestras grandes, por lo que parece que MLE es el enfoque correcto para mí.
Gracias a GaBorgulya por una buena dirección rápida, especialmente en el término "error de clasificación errónea".
Aquí hay algunas buenas fuentes sobre el tema:
El modelo básico, exactamente como se describe en el problema original.
Versión no unida de la misma
Un modelo más complicado pero más general.
Un buen resumen
fuente