Elegir entre las reglas de puntuación adecuadas

La mayoría de los recursos sobre reglas de puntuación adecuadas mencionan una serie de reglas de puntuación diferentes como pérdida de registro, puntuación de Brier o puntuación esférica. Sin embargo, a menudo no dan mucha orientación sobre las diferencias entre ellos. (Anexo A: Wikipedia ).

Elegir el modelo que maximiza la puntuación logarítmica corresponde a elegir el modelo de máxima verosimilitud, que parece un buen argumento para usar la puntuación logarítmica. ¿Existen justificaciones similares para Brier o puntuación esférica u otras reglas de puntuación? ¿Por qué alguien usaría uno de estos en lugar de una puntuación logarítmica?

machine-learning classification model-selection theory scoring-rules Ben Kuhn
fuente

Algunas pistas están en la nomenclatura. El "costo funcional" proviene de la optimización o la ingeniería óptima del sistema de control. No hay "mejor". Tener un "bien" significa que debes tener una medida de bondad. Hay un número infinito de familias de medidas de bondad. Un ejemplo trivial es: ¿cuál es el mejor camino? Si está marchando hacia su ejecución, hágalo placentero. Si vas a tu metal Fields, hazlo más corto. La experiencia del sistema lo ayuda a seleccionar la medida de la bondad. Cuando tienes la medida de la bondad, entonces puedes encontrar "lo mejor".

EngrStudent - Restablece a Monica el

Puede que le interese Merkle & Steyvers, "Elección de una regla de puntuación estrictamente adecuada" (2013, Análisis de decisiones ) .

S. Kolassa - Restablece a Monica el

Me tomé la libertad de editar el título para hacerlo más preciso / informativo. Si lo malinterpreté, lo siento y no dude en revertir el cambio.

Richard Hardy

Respuestas:

¿Por qué alguien usaría uno de estos en lugar de una puntuación logarítmica?

Entonces, idealmente, siempre distinguimos ajustar un modelo de tomar una decisión . En la metodología bayesiana, la puntuación y selección del modelo siempre debe hacerse utilizando la probabilidad marginal . Luego usa el modelo para hacer predicciones probabilísticas, y su función de pérdida le dice cómo actuar según esas predicciones.

Desafortunadamente en el mundo real, el rendimiento computacional a menudo dicta que combinamos la selección del modelo y la toma de decisiones y, por lo tanto, utilizamos una función de pérdida para adaptarnos a nuestros modelos. Aquí es donde se desliza la subjetividad en la selección del modelo, porque tienes que adivinar cuánto te costarán los diferentes tipos de error. El ejemplo clásico es un diagnóstico de cáncer: sobreestimar la probabilidad de cáncer de alguien no es bueno, pero subestimarlo es mucho peor.

Por otro lado, si está buscando orientación sobre cómo elegir una regla de puntaje, es posible que también desee buscar orientación sobre cómo elegir una función de pérdida o diseñar una función de utilidad, ya que creo que la literatura sobre esos dos temas es mucho más voluminoso

Andy Jones
fuente

1) ¿Está diciendo que la puntuación de Brier es esencialmente una "función de pérdida disfrazada", es decir, aunque se hace pasar por una regla de puntuación / comparación agnóstica de función de utilidad, en realidad se usa porque las personas tienen preferencias específicas sobre los tipos de errores que comete el modelo?

Ben Kuhn

2) ¿Tiene algún ejemplo específico de configuración en el que alguien pueda elegir Brier o puntuación esférica sobre puntuación de registro (= probabilidad marginal, según tengo entendido) por esas razones?

Ben Kuhn

3) ¿Por qué sería mejor integrar sus supuestos de la función de pérdida / utilidad en el modelo que ajustarse a la probabilidad marginal y usar su función de pérdida / utilidad al tomar la decisión? Parece que para los algoritmos de aprendizaje ideales no debería haber una brecha entre estos.

Ben Kuhn

1) Sí. 2) No personalmente, no. Las reglas de puntaje no están "de moda" en la parte de ML en la que trabajo. Al echar un vistazo rápido a Scholar , parece que están un poco anticuadas en general. Sin embargo, parece que este documento sería interesante para usted. 3) Por rendimiento quise decir "rendimiento computacional", no "rendimiento predictivo".

Andy Jones