Me gustaría evaluar varios modelos diferentes que proporcionan predicciones de comportamiento a nivel mensual. Los datos están equilibrados, 100,000 y T = 12. El resultado es asistir a un concierto en un mes determinado, por lo que es cero para ~ 80% de las personas en cualquier mes, pero hay una larga cola derecha de usuarios pesados. Las predicciones que tengo no parecen respetar la naturaleza del resultado: los conciertos fraccionales son frecuentes.
No sé nada de las modelos. Sólo observo 6 diferentes predicciones de recuadro negro y 1 , . . . , Y 6 para cada persona por mes. Tengo un año adicional de datos que los creadores de modelos no tenían para la estimación (aunque los asistentes al concierto siguen siendo los mismos), y me gustaría medir dónde funciona bien cada uno (en términos de precisión y precisión). Por ejemplo, ¿algún modelo predice bien para los asistentes frecuentes al concierto, pero falla para los adictos al sofá? ¿La predicción para enero es mejor que la predicción para diciembre? Alternativamente, sería bueno saber que las predicciones me permiten clasificar a las personas correctamente en términos de datos reales, incluso si no se puede confiar en la magnitud exacta.
Mi primer pensamiento fue ejecutar una regresión de efectos fijos de las variables ficticias pronosticadas y temporales y observar los RMSE o para cada modelo. Pero eso no responde a la pregunta sobre dónde funciona bien cada modelo o si las diferencias son significativas (a menos que arranque el RMSE). La distribución del resultado también me preocupa con este enfoque.
Mi segunda idea fue agrupar el resultado en 0, 1-3 y 3+, y calcular la matriz de confusión, pero esto ignora la dimensión del tiempo, a menos que haga 12 de estos. También es bastante burdo.
Conozco los comandos Stata concord
de TJ Steichen y NJ Cox, que tienen la by()
opción, pero eso requeriría colapsar los datos a los totales anuales. Esto calcula el índice de correlación de concordancia de Lin con intervalos de confianza, entre otras estadísticas útiles. CCC varía de -1 a 1, con un acuerdo perfecto en 1.
¿Cómo abordarías este problema? ¿Sugeriría calcular estadísticas como MAPE que son comunes en los pronósticos?
Cosas útiles encontradas hasta ahora:
- Diapositivas en una versión de medida repetida del coeficiente de correlación de concordancia de Lin
fuente
Respuestas:
Para evaluar la capacidad predictiva de un pronóstico de semi-Markov, hay varios métodos disponibles dependiendo del tamaño de la muestra y otra información disponible.
Para evaluar cualquier modelo predictivo / pronóstico, tiene la opción de validación cruzada (específicamente validación cruzada de muestra dividida iterativa o de exclusión), donde un modelo se estima en una muestra de "entrenamiento" y la incertidumbre del modelo evaluada en una "validación" muestra. Dependiendo de la distribución del resultado, hay varias medidas disponibles por las cuales puede seleccionar un modelo entre un panel de modelos elegibles. Para las medidas generales no paramétricas para la selección del modelo, a la gente realmente le gusta AIC y BIC, especialmente el último.
Las estadísticas CCC y c se utilizan para evaluar predicciones binarias de sección transversal como las de pruebas / ensayos, por lo que tendrá que descartarlas si está prediciendo, por ejemplo, IMC o IQ. Miden la calibración (como la prueba Hosmer Lemeshow) y lo que se llama capacidad de estratificación de riesgo. No hay conexión intuitiva con resultados continuos allí, al menos no por lo que puedo decir.
RMSE, por otro lado, se utiliza para evaluar predicciones continuas (salvo el caso de predicción de riesgo en el que RMSE se conoce como puntaje de Brier, una herramienta de evaluación de modelo bastante arcaica y obsoleta). Esta es una herramienta excelente y probablemente se usa para calibrar más del 80% de los modelos predictivos que encontramos a diario (pronósticos meteorológicos, clasificaciones de energía, MPG en vehículos, etc.).
Una advertencia en la validación de muestras divididas o el remuestreo para evaluar los modelos de pronóstico es que solo puede estar interesado en los resultados futuros cuando su muestra lo deje prediciendo resultados pasados. ¡No hagas esto! No refleja la aplicación de los modelos y puede influir enormemente en la selección de manera negativa. Avance hacia adelante toda la información disponible y prediga resultados futuros no observados en todos los casos disponibles.
Casi cualquier libro de modelos lineales aplicados cubrirá predicciones, RMSE y los matices de la capacitación y validación de modelos. Un buen comienzo sería Kutner, Nachtsheim, Neter, Li, que también consideran el "Análisis de series de tiempo" de Diggle, el "Análisis de datos longitudinales" de Diggle Heagerty Zeger Lii y las "Estrategias de modelado de regresión" de Harrell.
fuente