Simplificando un poco, tengo aproximadamente un millón de registros que registran el tiempo de entrada y salida de las personas en un sistema que abarca unos diez años. Cada registro tiene una hora de entrada, pero no todos los registros tienen una hora de salida. El tiempo medio en el sistema es de ~ 1 año.
Los tiempos de salida que faltan ocurren por dos razones:
- La persona no ha abandonado el sistema en el momento en que se capturaron los datos.
- El tiempo de salida de la persona no se registró. Esto pasa a decir el 50% de los registros
Las preguntas de interés son:
- ¿Las personas pasan menos tiempo en el sistema y cuánto menos tiempo?
- ¿Se registran más horas de salida y cuántas?
Podemos modelar esto diciendo que la probabilidad de que se registre una salida varía linealmente con el tiempo, y que el tiempo en el sistema tiene un Weibull cuyos parámetros varían linealmente con el tiempo. Luego podemos hacer una estimación de máxima verosimilitud de los diversos parámetros y observar los resultados y considerarlos plausibles. Elegimos la distribución de Weibull porque parece usarse para medir vidas y es divertido decirlo en lugar de ajustar los datos mejor que decir una distribución gamma.
¿Dónde debo buscar para obtener una pista sobre cómo hacer esto correctamente? Somos algo expertos en matemática, pero no extremadamente expertos en estadística.
fuente
Puede usar el modelo estimado para predecir los tiempos de salida de todas las personas en su sistema. Luego, puede comparar los tiempos de salida estimados con los tiempos de salida reales (donde tiene estos datos) y calcular una métrica como RMSE para evaluar qué tan buenas son sus predicciones, lo que a su vez le dará una idea del ajuste del modelo. Ver también este enlace .
fuente