Nociones alternativas a las reglas de puntuación adecuadas, y el uso de reglas de puntuación para evaluar modelos

Una regla de puntuación es un medio para evaluar la suposición de un agente de las probabilidades asociadas con un evento categórico, dado un resultado (categórico) del evento. Dependiendo de la suposición y el resultado observado, la regla de puntuación le da al agente una puntuación (un número real). Se supone que una regla de puntaje asigna puntajes de tal manera que, en promedio, el agente con el menor puntaje haga las conjeturas más precisas. (Las convenciones difieren en cuanto a si las reglas de puntuación se enmarcan en términos de minimización o maximización. Aquí estoy tomando la vista de minimización).

Una propiedad importante de las reglas de puntuación es si son una regla de puntuación adecuada; es decir, si otorgan la menor puntuación media cuando un agente adivina las verdaderas probabilidades (o, en un marco bayesiano subjetivo, otorgan la menor puntuación media posterior, dados los propios antecedentes del agente, cuando un agente usa sus propios grados de creencia como sus conjeturas). En el caso de un evento binario, el error al cuadrado de 0 o 1 (la puntuación de Brier) es una regla de puntuación adecuada, mientras que el error absoluto no lo es. ¿Por qué? Bueno, el criterio de adecuación se basa en la media, y la media es la medida de la tendencia central que minimiza la suma de las diferencias al cuadrado, pero no necesita minimizar el error absoluto.

Esta línea de pensamiento sugiere que si reemplazamos la media en la definición de una regla de puntuación adecuada con alguna otra función estadística, como la mediana, obtendremos un tipo análogo de familia rica de reglas de puntuación adecuadas. No es irrazonable imaginar una situación en la que un agente quiera minimizar su puntaje promedio en lugar de su puntaje promedio. En realidad, parece que no hay reglas de puntuación no triviales adecuadas para la mediana. Considerando nuevamente el caso de un evento binario, si la probabilidad real es menor a 1/2, entonces la puntuación media de un agente será igual a la puntuación que se le dé al agente cuando el evento no ocurra, independientemente del evento probabilidad exacta Las travesuras análogas parecen ocurrir si reemplazamos la media por, digamos, la media geométrica.

Entonces, ¿hay una sensación de que, para que la teoría de las reglas de puntaje adecuadas funcione según lo previsto, la función estadística debe ser la media?

Me doy cuenta de que esta es una pregunta vaga, y es probable que la mejor respuesta sea una explicación de por qué la pregunta realmente no tiene sentido, así que aquí está el contexto en el que me encuentro preguntándola, para ayudarlo a no confundirme. Soy psicólogo de la toma de decisiones, y a menudo me encuentro con ganas de cuantificar el rendimiento (ya sea el rendimiento predictivo, bajo validación cruzada o el ajuste del modelo post-hoc) de un modelo que escupe las probabilidades de lo que las personas elegirán en Un escenario de decisión binaria. La discusión anterior sugiere que debería usar una regla de puntuación adecuada. Molesto, las reglas de puntuación adecuadas no están en la misma escala que las probabilidades. Me parece que quiero, por ejemplo, tomar la raíz cuadrada del error cuadrático medio en lugar de solo mirar el error cuadrático medio (es decir, la puntuación media de Brier), pero en el caso de un ensayo, el RMSE es equivalente al error absoluto, lo cual no es correcto, entonces ¿no pensaría que los modelos que son menos precisos son mejores? Evidentemente, no puedo cambiar mi método de evaluar las reglas de puntuación de uno en términos de medios a uno en términos de, por ejemplo, medianas. ¿Debo simplemente familiarizarme con la escala de una de las reglas de puntuación adecuadas habituales, o usar una estadística de detección de señal como área bajo la curva ROC o d '?

Una complicación adicional es que, para un estudio, estoy buscando ajustes paramétricos de modelos de arranque, de acuerdo con Wagenmakers, Ratcliff, Gomez e Iverson (2004), lo que significa que estoy viendo gráficos de densidad de puntajes en lugar de puntajes individuales. Entonces, está aún menos claro si debería preocuparme por lo apropiado o por algún criterio análogo.

Editar: vea este hilo de comentarios en Reddit para más discusión.

Wagenmakers, E.-J., Ratcliff, R., Gómez, P. e Iverson, GJ (2004). Evaluación de la imitación del modelo utilizando el bootstrap paramétrico. Revista de psicología matemática, 48 , 28–50. doi: 10.1016 / j.jmp.2003.11.004

scales scoring-rules Kodiólogo
fuente

¿Tengo razón en que está haciendo dos preguntas: 1 - ¿Se puede redefinir "apropiado" en términos de la puntuación media, en lugar de la puntuación esperada de un pronóstico dado? 2 - ¿Hay puntajes apropiados para las probabilidades que están en la escala de probabilidad?

Fabian

(1) Estoy bastante seguro de que la respuesta a esa pregunta es "no"; lo que pregunto es si tiene sentido redefinir "apropiado" en términos de otra cosa que no sea la media (es decir, la expectativa). (2) Sí, esa es una pregunta para la que me gustaría la respuesta, pero dado que la respuesta nuevamente es probablemente "no", supongo que mi seguimiento sería "Entonces, ¿cuál es una buena regla de puntuación que se puede interpretar de una manera que se relacione naturalmente a las probabilidades?

Kodiólogo

Acerca de (1), el siguiente documento parece estar relacionado con su pregunta: ssc.upenn.edu/~fdiebold/papers/paper118/DieboldShin_SED.pdf Los autores analizan un caso en el que el interés no está en el puntaje esperado, sino en la distribución de puntajes. Curiosamente, nuevamente terminan minimizando los puntajes esperados de cierta forma (ver las Propuestas 2.2 y 3.1).

Fabian

Desafortunadamente, parece que ese documento trata sobre pronósticos del mismo tipo que el DV, a diferencia de este caso en el que estoy preguntando acerca de las suposiciones sobre la probabilidad de un evento en lugar de sobre el evento más probable. Las conjeturas son probabilidades mientras que el DV se realiza de manera discreta.

Kodiólogo

Respuestas:

Al contrario de lo que dijiste sobre las travesuras de la media geométrica, en realidad existen reglas de puntuación adecuadas para la media geométrica.

La media geométrica de una variable aleatoria es igual a . Por lo tanto minimizando la media geométrica de una puntuación al azar corresponde a reducir al mínimo la media aritmética de una puntuación al azar . Entonces, si es una regla de puntuación adecuada estándar (donde es el puntaje que obtiene si predice una probabilidad y el evento ocurre), entonces es una regla de puntuación adecuada para la media geométrica. $X$ $e^{E(\log X)}$ $S$ $\log S$ $f(\hat p)$ $f(\hat p)$ $\hat p$ $g(\hat p) = \log f(\hat p)$

De manera similar, la media armónica de es , por lo que es una regla de puntuación armónica adecuada . (El signo negativo está allí, por lo que la transformación de coordenadas aumenta de forma monótona). $X$ $E(X^{-1})^{-1}$ $g(\hat p) = -f(\hat p)^{-1}$

Esto funciona para cualquier tendencia central que sea la media aritmética en un espacio transformado monotónicamente. El problema es que la mediana no funciona así. En términos más generales, cualquier tendencia central con un punto de ruptura distinto de cero no funcionará, ya que será insensible a los cambios en la probabilidad cuando es pequeño. Por ejemplo, el rango intercuartil no funcionará, porque si , entonces el rango intercuartil de los puntajes no depende de (por lo que el mismo debe minimizar el IQR para todos los valores de menos de , que es malo). $p$ $p < 0.25$ $p$ $\hat p$ $p$ $0.25$

Fuera de mi cabeza, no puedo pensar en ninguna tendencia central con un punto de ruptura 0 que no pueda ser reescrita como una transformación monótona de la media aritmética, pero probablemente sea porque no conozco suficiente cálculo variacional (ciertamente no es suficiente para probar que tengo razón). Sin embargo, si estoy en lo cierto, sería "esencialmente" cierto que

Para que la teoría de las reglas de puntuación adecuadas funcione según lo previsto, la función estadística debe ser la media.

Otro comentario: sugiere usar el RMSE como una regla de puntuación, pero no debe hacerlo porque coincide con el error absoluto cuando hay un punto de datos. Esto parece que podría reflejar cierta confusión. Siempre evalúa una regla de puntuación en cada predicción individual. Luego, si desea resumir los puntajes, puede tomar la tendencia central de los puntajes después. Por lo tanto, predecir para optimizar el RMSE siempre es idéntico a optimizar el error absoluto.

Por otro lado, podría hacer algo como tomar la raíz cuadrada del puntaje promedio de Brier como su resumen si desea tener un resumen de puntaje que esté en "unidades de probabilidad". Pero creo que sería más productivo simplemente familiarizarse con los puntos de referencia para la escala de puntuación de Brier, ya que eso es lo que normalmente verá:

0 es un predictor perfecto;
0.25 significa que no hay capacidad predictiva ( ); $\hat p = 0.5$
1 es un anti-predictor perfecto ( o ). $\hat p = 1, p = 0$ $\hat p = 0, p = 1$

También puede construir otros puntos de referencia utilizando modelos muy simples; por ejemplo, si ignora toda la información sobre los eventos y simplemente predice la tasa base , entonces su puntaje Brier es . O si está prediciendo series de tiempo, puede ver qué tan bien lo hace un promedio ponderado de los últimos eventos, etc. $p$ $p(1-p)$

Ben Kuhn
fuente

Gracias por su atenta respuesta. "entonces es una regla de puntuación adecuada para la media geométrica" - ¿Quieres decir ? Luego obtenemos , que tiene la misma minimización que , según se desee.

g (\hat{p}) = \log f (\hat{p})

$g(\hat p) = \log f(\hat p)$

e^{f (\hat{p})}

$e^{f(\hat p)}$

E [\log S_{2}] = E [\log e^{S}] = E [S]

$E[\log S_2] = E[\log e^S] = E[S]$

\hat{p}

$\hat p$

e^{E (\log S_{2})}

$e^{E(\log S_2)}$

Kodiólogo

"Siempre evalúa una regla de puntaje en cada predicción individual. Luego, si desea resumir los puntajes, puede tomar la tendencia central de los puntajes después". - En la práctica, parece haber dos fases en las que está involucrada una tendencia central: (1) cuando se agregan los puntajes de un solo agente en múltiples eventos (2) cuando se considera el desempeño a largo plazo de un agente. (2) usa la salida de (1). Uno podría haber esperado, a priori, que podría usar RMSE para (1) pero la media para los análisis con respecto a (2).

Kodiólogo

@Kodiologist: ¡Gracias por la corrección! Me sirve bien por no escribirlo primero.

Ben Kuhn

Re su segundo comentario: creo que la confusión puede estar entre usar RMSE como tendencia central y usar RMSE como regla de puntuación. Como regla de puntuación, el RMSE es idéntico al error absoluto, ya que las puntuaciones se evalúan predicción por predicción. Como tendencia central, está bien: nuevamente es la media en un espacio de coordenadas monotónicamente transformadas (siempre que la función de puntuación sea positiva). Pero el uso de RMSE como su tendencia central (no la regla de puntuación) no alivia el problema de que sus puntajes no tienen las mismas unidades que las probabilidades.

Ben Kuhn

@Kodiologist: ¿esto responde a tu pregunta? ¡Avísame si todavía te estás preguntando algo!

Ben Kuhn el

Debe volver a la motivación para una regla de puntuación adecuada, que afirma libremente como "el agente con la menor puntuación hace las conjeturas más precisas". Para ser precisos, el origen de las reglas de puntuación es obtener probabilidades que reflejen creencias verdaderas: como usted dice, una persona no puede hacer nada mejor que ofrecer una probabilidad correspondiente a su creencia cuando se le ofrece una regla de puntuación como recompensa. Se han utilizado reglas de puntuación para definir qué significa una probabilidad sin referirse al límite de un gran número de repeticiones.

Dicha regla de puntuación se deriva al tomar expectativas sobre la regla, de ahí la aparición de la media sobre el conjunto de predicciones. Entonces, cuando se pregunta ¿debe "la estadística funcional debe ser la media?" realmente se pregunta cómo podemos tomar la expectativa sobre un conjunto de puntajes por algún otro método que no sea el uso convencional de la media.

Leí en su preocupación que "las reglas de puntaje adecuadas no están en la misma escala que las probabilidades" que quizás esté buscando expresar cuán bueno o malo es el puntaje calculado. Además del puntaje de Brier, el registro de la diferencia absoluta entre la probabilidad ofrecida y un resultado de 0,1 también es una regla de puntuación adecuada, pero eso puede no dar resultados más interpretables, especialmente porque puede divergir a valores extremos para errores grandes.

Enterrado en la derivación de las reglas de puntuación es que el tomador de decisiones tiene una utilidad lineal, por lo tanto, la expectativa se toma directamente sobre la regla de puntuación, no sobre la utilidad del resultado de la regla de puntuación. (Una persona puede tener un riesgo adverso a grandes desviaciones de la verdad, y eso sesgaría sus probabilidades obtenidas). Quizás esté pensando implícitamente en una función de utilidad que expresa cuán buenas o malas son las "probabilidades de lo que la gente elegirá" en lugar de solo las probabilidades mismas?

John Mark
fuente

Re usar las reglas de puntuación para definir la probabilidad: interesante, no tenía idea. Sí, preocuparme por evaluar qué tan buenas son las puntuaciones calculadas. Puntuación re logarítmica que proporciona puntuaciones extremas para grandes errores: debidamente anotado. Re utilidad no lineal: puede que tengas razón, pero decidir sobre las funciones de utilidad parece un negocio muy complicado, especialmente en la investigación básica.

Kodiólogo