Estoy validando de forma cruzada un modelo que está tratando de predecir un recuento. Si este fuera un problema de clasificación binaria, calcularía el AUC fuera del pliegue, y si este fuera un problema de regresión, calcularía el RMSE o el MAE fuera del pliegue.
Para un modelo de Poisson, ¿qué métricas de error puedo usar para evaluar la "precisión" de las predicciones fuera de la muestra? ¿Existe una extensión de Poisson de AUC que observe qué tan bien las predicciones ordenan los valores reales?
Parece que muchas competiciones de Kaggle para conteos (p. Ej., Número de votos útiles que obtendrá una revisión de gritos, o número de días que un paciente pasará en el hospital) usan el error cuadrático medio log log, o RMLSE.
/ Editar: Una cosa que he estado haciendo es calcular deciles de los valores predichos, y luego mirar los recuentos reales, agrupados por decil. Si el decil 1 es bajo, el decil 10 es alto y los deciles intermedios están aumentando estrictamente, he estado llamando al modelo "bueno", pero he tenido problemas para cuantificar este proceso y estoy convencido de que hay un mejor enfoque.
/ Edición 2: estoy buscando una fórmula que tome valores predichos y reales y devuelva alguna métrica de "error" o "precisión". Mi plan es calcular esta función en los datos fuera del pliegue durante la validación cruzada, y luego usarla para comparar una amplia variedad de modelos (por ejemplo, una regresión de Poisson, un bosque aleatorio y un GBM ).
Por ejemplo, una de esas funciones es RMSE = sqrt(mean((predicted-actual)^2))
. Otra de esas funciones sería AUC . Ninguna de las funciones parece ser adecuada para los datos de Poisson.
Respuestas:
Hay un par de reglas de puntuación adecuadas y estrictamente adecuadas para los datos de recuento que puede usar. Las reglas de puntuación son penalizaciones introducidas con P como la distribución predictiva yy el valor observado. Tienen una serie de propiedades deseables, en primer lugar que un pronóstico más cercano a la probabilidad real siempre recibirá menos penalización y hay un mejor pronóstico (único) y es cuando la probabilidad pronosticada coincide con la probabilidad verdadera. Por lo tanto, minimizar la expectativa de s ( y , P ) significa informar las probabilidades verdaderas. Ver también Wikipedia .s ( y, P) PAGS y s ( y, P)
A menudo uno toma un promedio de aquellos sobre todos los valores predichos como
La regla que debe tomar depende de su objetivo, pero daré una caracterización aproximada cuando cada una sea buena para usar.
Reglas de puntuación estrictamente adecuadas
Otras reglas de puntuación (no tan adecuadas pero de uso frecuente)
Ejemplo de código R para las reglas estrictamente adecuadas:
fuente
-log(f(y))
. ¿La-
señal realmente debería estar allí? En el enlace de Wikipedia de su regla de puntuación ( en.wikipedia.org/wiki/Scoring_rule#Logarithmic_scoring_rule ), la puntuación logarítmica no tiene signo negativo: ¿L(r,i)=ln(ri)
es normal? Finalmente, en ese caso, ¿una puntuación más alta es mejor o peor?