Una regla de puntuación es un medio para evaluar la suposición de un agente de las probabilidades asociadas con un evento categórico, dado un resultado (categórico) del evento. Dependiendo de la suposición y el resultado observado, la regla de puntuación le da al agente una puntuación (un número real). Se supone que una regla de puntaje asigna puntajes de tal manera que, en promedio, el agente con el menor puntaje haga las conjeturas más precisas. (Las convenciones difieren en cuanto a si las reglas de puntuación se enmarcan en términos de minimización o maximización. Aquí estoy tomando la vista de minimización).
Una propiedad importante de las reglas de puntuación es si son una regla de puntuación adecuada; es decir, si otorgan la menor puntuación media cuando un agente adivina las verdaderas probabilidades (o, en un marco bayesiano subjetivo, otorgan la menor puntuación media posterior, dados los propios antecedentes del agente, cuando un agente usa sus propios grados de creencia como sus conjeturas). En el caso de un evento binario, el error al cuadrado de 0 o 1 (la puntuación de Brier) es una regla de puntuación adecuada, mientras que el error absoluto no lo es. ¿Por qué? Bueno, el criterio de adecuación se basa en la media, y la media es la medida de la tendencia central que minimiza la suma de las diferencias al cuadrado, pero no necesita minimizar el error absoluto.
Esta línea de pensamiento sugiere que si reemplazamos la media en la definición de una regla de puntuación adecuada con alguna otra función estadística, como la mediana, obtendremos un tipo análogo de familia rica de reglas de puntuación adecuadas. No es irrazonable imaginar una situación en la que un agente quiera minimizar su puntaje promedio en lugar de su puntaje promedio. En realidad, parece que no hay reglas de puntuación no triviales adecuadas para la mediana. Considerando nuevamente el caso de un evento binario, si la probabilidad real es menor a 1/2, entonces la puntuación media de un agente será igual a la puntuación que se le dé al agente cuando el evento no ocurra, independientemente del evento probabilidad exacta Las travesuras análogas parecen ocurrir si reemplazamos la media por, digamos, la media geométrica.
Entonces, ¿hay una sensación de que, para que la teoría de las reglas de puntaje adecuadas funcione según lo previsto, la función estadística debe ser la media?
Me doy cuenta de que esta es una pregunta vaga, y es probable que la mejor respuesta sea una explicación de por qué la pregunta realmente no tiene sentido, así que aquí está el contexto en el que me encuentro preguntándola, para ayudarlo a no confundirme. Soy psicólogo de la toma de decisiones, y a menudo me encuentro con ganas de cuantificar el rendimiento (ya sea el rendimiento predictivo, bajo validación cruzada o el ajuste del modelo post-hoc) de un modelo que escupe las probabilidades de lo que las personas elegirán en Un escenario de decisión binaria. La discusión anterior sugiere que debería usar una regla de puntuación adecuada. Molesto, las reglas de puntuación adecuadas no están en la misma escala que las probabilidades. Me parece que quiero, por ejemplo, tomar la raíz cuadrada del error cuadrático medio en lugar de solo mirar el error cuadrático medio (es decir, la puntuación media de Brier), pero en el caso de un ensayo, el RMSE es equivalente al error absoluto, lo cual no es correcto, entonces ¿no pensaría que los modelos que son menos precisos son mejores? Evidentemente, no puedo cambiar mi método de evaluar las reglas de puntuación de uno en términos de medios a uno en términos de, por ejemplo, medianas. ¿Debo simplemente familiarizarme con la escala de una de las reglas de puntuación adecuadas habituales, o usar una estadística de detección de señal como área bajo la curva ROC o d '?
Una complicación adicional es que, para un estudio, estoy buscando ajustes paramétricos de modelos de arranque, de acuerdo con Wagenmakers, Ratcliff, Gomez e Iverson (2004), lo que significa que estoy viendo gráficos de densidad de puntajes en lugar de puntajes individuales. Entonces, está aún menos claro si debería preocuparme por lo apropiado o por algún criterio análogo.
Editar: vea este hilo de comentarios en Reddit para más discusión.
Wagenmakers, E.-J., Ratcliff, R., Gómez, P. e Iverson, GJ (2004). Evaluación de la imitación del modelo utilizando el bootstrap paramétrico. Revista de psicología matemática, 48 , 28–50. doi: 10.1016 / j.jmp.2003.11.004
fuente
Respuestas:
Al contrario de lo que dijiste sobre las travesuras de la media geométrica, en realidad existen reglas de puntuación adecuadas para la media geométrica.
La media geométrica de una variable aleatoria es igual a . Por lo tanto minimizando la media geométrica de una puntuación al azar corresponde a reducir al mínimo la media aritmética de una puntuación al azar . Entonces, si es una regla de puntuación adecuada estándar (donde es el puntaje que obtiene si predice una probabilidad y el evento ocurre), entonces es una regla de puntuación adecuada para la media geométrica.X mimi( registroX) S Iniciar sesiónS F(pags^) F(pags^) pags^ sol(pags^) = logF(pags^)
De manera similar, la media armónica de es , por lo que es una regla de puntuación armónica adecuada . (El signo negativo está allí, por lo que la transformación de coordenadas aumenta de forma monótona).X mi(X- 1)- 1 sol(pags^) = - f(pags^)- 1
Esto funciona para cualquier tendencia central que sea la media aritmética en un espacio transformado monotónicamente. El problema es que la mediana no funciona así. En términos más generales, cualquier tendencia central con un punto de ruptura distinto de cero no funcionará, ya que será insensible a los cambios en la probabilidad cuando es pequeño. Por ejemplo, el rango intercuartil no funcionará, porque si , entonces el rango intercuartil de los puntajes no depende de (por lo que el mismo debe minimizar el IQR para todos los valores de menos de , que es malo).pags p < 0.25 pags pags^ pags 0.25
Fuera de mi cabeza, no puedo pensar en ninguna tendencia central con un punto de ruptura 0 que no pueda ser reescrita como una transformación monótona de la media aritmética, pero probablemente sea porque no conozco suficiente cálculo variacional (ciertamente no es suficiente para probar que tengo razón). Sin embargo, si estoy en lo cierto, sería "esencialmente" cierto que
Otro comentario: sugiere usar el RMSE como una regla de puntuación, pero no debe hacerlo porque coincide con el error absoluto cuando hay un punto de datos. Esto parece que podría reflejar cierta confusión. Siempre evalúa una regla de puntuación en cada predicción individual. Luego, si desea resumir los puntajes, puede tomar la tendencia central de los puntajes después. Por lo tanto, predecir para optimizar el RMSE siempre es idéntico a optimizar el error absoluto.
Por otro lado, podría hacer algo como tomar la raíz cuadrada del puntaje promedio de Brier como su resumen si desea tener un resumen de puntaje que esté en "unidades de probabilidad". Pero creo que sería más productivo simplemente familiarizarse con los puntos de referencia para la escala de puntuación de Brier, ya que eso es lo que normalmente verá:
También puede construir otros puntos de referencia utilizando modelos muy simples; por ejemplo, si ignora toda la información sobre los eventos y simplemente predice la tasa base , entonces su puntaje Brier es . O si está prediciendo series de tiempo, puede ver qué tan bien lo hace un promedio ponderado de los últimos eventos, etc.pags p ( 1 - p )
fuente
Debe volver a la motivación para una regla de puntuación adecuada, que afirma libremente como "el agente con la menor puntuación hace las conjeturas más precisas". Para ser precisos, el origen de las reglas de puntuación es obtener probabilidades que reflejen creencias verdaderas: como usted dice, una persona no puede hacer nada mejor que ofrecer una probabilidad correspondiente a su creencia cuando se le ofrece una regla de puntuación como recompensa. Se han utilizado reglas de puntuación para definir qué significa una probabilidad sin referirse al límite de un gran número de repeticiones.
Dicha regla de puntuación se deriva al tomar expectativas sobre la regla, de ahí la aparición de la media sobre el conjunto de predicciones. Entonces, cuando se pregunta ¿debe "la estadística funcional debe ser la media?" realmente se pregunta cómo podemos tomar la expectativa sobre un conjunto de puntajes por algún otro método que no sea el uso convencional de la media.
Leí en su preocupación que "las reglas de puntaje adecuadas no están en la misma escala que las probabilidades" que quizás esté buscando expresar cuán bueno o malo es el puntaje calculado. Además del puntaje de Brier, el registro de la diferencia absoluta entre la probabilidad ofrecida y un resultado de 0,1 también es una regla de puntuación adecuada, pero eso puede no dar resultados más interpretables, especialmente porque puede divergir a valores extremos para errores grandes.
Enterrado en la derivación de las reglas de puntuación es que el tomador de decisiones tiene una utilidad lineal, por lo tanto, la expectativa se toma directamente sobre la regla de puntuación, no sobre la utilidad del resultado de la regla de puntuación. (Una persona puede tener un riesgo adverso a grandes desviaciones de la verdad, y eso sesgaría sus probabilidades obtenidas). Quizás esté pensando implícitamente en una función de utilidad que expresa cuán buenas o malas son las "probabilidades de lo que la gente elegirá" en lugar de solo las probabilidades mismas?
fuente