¿Cuándo es apropiado usar una regla de puntuación incorrecta?

Merkle y Steyvers (2013) escriben:

Para definir formalmente una regla de puntuación adecuada, dejemos que sea un pronóstico probabilístico de un ensayo de Bernoulli con verdadera probabilidad de éxito . Las reglas de puntuación adecuadas son métricas cuyos valores esperados se minimizan si . $f$ $d$ $p$ $f = p$

Entiendo que esto es bueno porque queremos alentar a los pronosticadores a generar pronósticos que reflejen honestamente sus verdaderas creencias, y no queremos darles incentivos perversos para que hagan lo contrario.

¿Hay ejemplos del mundo real en los que sea apropiado usar una regla de puntuación incorrecta?

Referencia
Merkle, EC, y Steyvers, M. (2013). Elegir una regla de puntuación estrictamente adecuada. Análisis de decisiones, 10 (4), 292-304

classification forecasting scoring-rules user1205901 - Restablecer Monica
fuente

Creo que la primera columna de la última página de "Reglas de puntuación" de Winkler y José (2010) que cita Merkle y Steyvers (2013) ofrece una respuesta. Es decir, si la utilidad no es una transformación afín del puntaje (lo que podría justificarse por la aversión al riesgo y tal), la maximización de la utilidad esperada estaría en conflicto con la maximización del puntaje esperado

Richard Hardy,

Respuestas:

Es apropiado usar una regla de puntuación incorrecta cuando el propósito es realmente pronosticar, pero no inferencia. Realmente no me importa si otro pronosticador está haciendo trampa o no cuando soy yo quien va a hacer el pronóstico.

Las reglas de puntuación adecuadas aseguran que durante el proceso de estimación el modelo se acerque al proceso de generación de datos (DGP) verdadero. Esto suena prometedor porque a medida que nos acercamos al verdadero DGP también estaremos haciendo bien en términos de pronóstico bajo cualquier función de pérdida. El problema es que la mayoría de las veces (en realidad casi siempre) nuestro espacio de búsqueda de modelos no contiene el verdadero DGP. Terminamos aproximando el verdadero DGP con alguna forma funcional que proponemos.

En esta configuración más realista, si nuestra tarea de pronóstico es más fácil que calcular la densidad total del verdadero DGP, en realidad podríamos hacerlo mejor. Esto es especialmente cierto para la clasificación. Por ejemplo, el verdadero DGP puede ser muy complejo, pero la tarea de clasificación puede ser muy fácil.

Yaroslav Bulatov proporcionó el siguiente ejemplo en su blog:

http://yaroslavvb.blogspot.ro/2007/06/log-loss-or-hinge-loss.html

$x \ge 0$ $x < 0$

En lugar de igualar la densidad exacta anterior, proponemos el siguiente modelo bruto, que está bastante lejos del verdadero DGP. Sin embargo, hace una clasificación perfecta. Esto se encuentra usando la pérdida de la bisagra, que no es adecuada.

Por otro lado, si decide encontrar el DGP verdadero con pérdida de registro (lo cual es correcto), entonces comienza a ajustar algunos funcionales, ya que no sabe cuál es la forma funcional exacta que necesita a priori. Pero a medida que te esfuerzas más y más para igualarlo, comienzas a clasificar mal las cosas.

Tenga en cuenta que en ambos casos utilizamos las mismas formas funcionales. En el caso de pérdida inadecuada, degeneró en una función de paso que a su vez hizo una clasificación perfecta. En el caso apropiado, se volvió loco tratando de satisfacer cada región de la densidad.

Básicamente, no siempre necesitamos lograr el modelo verdadero para tener pronósticos precisos. O a veces realmente no necesitamos hacer el bien en todo el dominio de la densidad, sino ser muy buenos solo en ciertas partes.

Cagdas Ozgenc
fuente

Ese es un ejemplo fascinante, realmente algo de reflexión.

Matthew Drury

La precisión (es decir, el porcentaje correctamente clasificado) es una regla de puntuación incorrecta, por lo que, en cierto sentido, las personas lo hacen todo el tiempo.

En términos más generales, cualquier regla de puntuación que fuerce las predicciones a una categoría predefinida será incorrecta. La clasificación es un caso extremo de esto (los únicos pronósticos permitidos son 0% y 100%), pero el pronóstico del tiempo probablemente también sea ligeramente incorrecto: mis estaciones locales parecen informar la posibilidad de lluvia en intervalos de 10 o 20%, aunque yo Apostaría a que el modelo subyacente es mucho más preciso.

Las reglas de puntuación adecuadas también suponen que el pronosticador es neutral al riesgo. Este no suele ser el caso de los pronosticadores humanos reales, que generalmente son adversos al riesgo, y algunas aplicaciones podrían beneficiarse de una regla de puntuación que reproduzca ese sesgo. Por ejemplo, puede darle un poco de peso extra a P (lluvia) ya que llevar un paraguas pero no necesitarlo es mucho mejor que ser atrapado en un aguacero.

Matt Krause
fuente

No creo entender tu tercer párrafo. Había estado escribiendo una respuesta similar a lo largo de las líneas en las que podríamos querer concentrarnos más en obtener los cuantiles altos de densidades predictivas, pero no veo cómo tal función de pérdida nos motivaría a usar una regla de puntuación inadecuada. Después de todo, todavía estaríamos más motivados para pronosticar la distribución futura correcta. ¿Podrías dar más detalles?

S. Kolassa - Restablece a Mónica el

Si el pronosticador maximiza su utilidad esperada (en lugar de su valor), entonces las reglas de puntuación adecuadas pueden no ser adecuadas (por ejemplo, si la utilidad no es una función lineal de la puntuación). Sin embargo, si conoce o puede estimar la función de utilidad, supongo que podría crear una regla de puntuación adecuada especialmente diseñada aplicando su inversa.

Matt Krause

Pero la adecuación o no de la regla de puntuación no está relacionada con la utilidad, solo con la distribución futura pronosticada y real, por lo que todavía no entiendo la primera oración de su comentario, ni por qué querríamos usar una regla de puntuación incorrecta . Sin embargo, me recuerdas un artículo de Ehm at al, para aparecer en JRSS-B , que hojeé al escribir mi respuesta abortada, pero en el que no encontré nada útil para la presente pregunta; una lectura más detallada puede ser más útil.

S. Kolassa - Restablece a Mónica el

@StephanKolassa, tal vez la primera columna de la última página de "Reglas de puntuación" de Winkler & Jose (2010) lo explica?

Richard Hardy

Los comentarios no son para discusión extendida; Esta conversación se ha movido al chat .

gung - Restablece a Monica