En primer lugar, da probabilidad de resultados. Entonces, por ejemplo, sus predicciones para las elecciones estadounidenses son actualmente del 82% de Clinton frente al 18% de Trump.
Ahora, incluso si Trump gana, ¿cómo sé que no fue solo el 18% del tiempo que debería haber ganado?
El otro problema es que sus probabilidades cambian con el tiempo. Entonces, el 31 de julio, fue casi un 50-50 entre Trump y Clinton.
Mi pregunta es, dado que tiene una probabilidad diferente cada día para el mismo evento futuro con el mismo resultado, ¿cómo puedo medir qué tan exacto fue para cada día que hizo una predicción basada en la información disponible hasta ese día?
forecasting
prediction
validation
accuracy
scoring-rules
Sopa de dinosaurio
fuente
fuente
Respuestas:
Los pronósticos probabilísticos (o, como también se los conoce, pronósticos de densidad) se pueden evaluar utilizando reglas de puntuación , es decir, funciones que mapean un pronóstico de densidad y un resultado observado a un llamado puntaje, que se minimiza en expectativa si el pronóstico de densidad de hecho es la verdadera densidad que se pronostica. Las reglas de puntuación adecuadas son reglas de puntuación que se minimizan en la expectativa solo por la verdadera densidad futura.
Existen bastantes reglas de puntuación adecuadas, comenzando con Brier (1950, Monthly Weather Review ) en el contexto del pronóstico meteorológico probabilístico. Czado y col. (2009, Biometrics ) ofrecen una descripción más reciente del caso discreto. Gneiting y Katzfuss (2014, Revisión anual de estadísticas y su aplicación ) ofrecen una visión general de los pronósticos probabilísticos en general: Gneiting en particular ha sido muy activo en el avance de la causa de las reglas de puntuación adecuadas.
Sin embargo, las reglas de puntuación son algo difíciles de interpretar, y realmente solo ayudan a comparar múltiples pronósticos probabilísticos: el que tiene la puntuación más baja es mejor. Es decir, hasta la variación de muestreo, por lo que siempre es mejor tener muchos pronósticos para evaluar, cuyos puntajes promediaríamos.
Cómo incluir la "actualización" de los pronósticos de Silver u otros es una buena pregunta. Podemos usar reglas de puntuación para comparar "instantáneas" de diferentes pronósticos en un solo punto en el tiempo, o incluso podríamos mirar los pronósticos probabilísticos de Silver a lo largo del tiempo y calcular los puntajes en cada punto de tiempo. Uno esperaría que el puntaje sea cada vez más bajo (es decir, los pronósticos de densidad mejoran cada vez más) cuanto más cerca esté el resultado real.
fuente
En el libro de Nate Silver, The Signal and the Noise , escribe lo siguiente, que puede proporcionar una idea de su pregunta:
Entonces esto plantea algunos puntos. En primer lugar, como señala correctamente, realmente no puede hacer ninguna inferencia sobre la calidad de un pronóstico individual por el resultado del evento que pronostica. Lo mejor que puede hacer es ver cómo funciona su modelo en el transcurso de muchas predicciones.
Otra cosa en la que es importante pensar es que las predicciones que proporciona Nate Silver no son un evento en sí, sino la distribución de probabilidad del evento. Entonces, en el caso de la carrera presidencial, está estimando la distribución de probabilidad de que Clinton, Trump o Johnson ganen la carrera. Entonces, en este caso, está estimando una distribución multinomial.
Pero en realidad está prediciendo la carrera a un nivel mucho más granular. Sus predicciones estiman las distribuciones de probabilidad del porcentaje de votos que cada candidato obtendrá en cada estado. Entonces, si consideramos 3 candidatos, esto podría caracterizarse por un vector aleatorio de longitud 51 * 3 y tomar valores en el intervalo [0, 1], sujeto a la restricción de que las proporciones suman 1 para las proporciones dentro de un estado. El número 51 se debe a que otros son 50 estados + DC (y de hecho creo que en realidad son unos pocos más porque algunos estados pueden dividir sus votos electorales en la universidad), y el número 3 se debe a la cantidad de candidatos.
Ahora no tiene muchos datos para evaluar sus predicciones: solo ha proporcionado predicciones para las últimas 3 elecciones de las que tengo conocimiento (¿hubo más?). Por lo tanto, no creo que haya ninguna manera de evaluar su modelo de manera justa, a menos que realmente tenga el modelo a mano y pueda evaluarlo utilizando datos simulados. Pero todavía hay algunas cosas interesantes que podrías mirar. Por ejemplo, creo que sería interesante observar con qué precisión predijo las proporciones de votación estado por estado en un momento determinado, por ejemplo, una semana después de las elecciones. Si repite esto para varios puntos de tiempo, por ejemplo, una semana, un mes, 6 meses y un año, podría proporcionar una exposición bastante interesante para sus predicciones. Una advertencia importante: los resultados están altamente correlacionados en todos los estados dentro de una elección, por lo que realmente no puede decir que tiene 51 estados * 3 elecciones independientes de predicciones (es decir, si el modelo subestima el desempeño de los candidatos en un estado, también tenderá a subestimarse en otros estados) . Pero tal vez lo pensaría así de todos modos solo para que tenga suficientes datos para hacer algo significativo.
fuente
Para cualquier predicción que no pueda, más de lo que podemos decir si la afirmación "esta moneda tiene un 60% de posibilidades de que salga cara" está cerca de corregirse con un solo lanzamiento.
Sin embargo, puede evaluar su metodología a través de muchas predicciones: para una elección dada, hace muchas predicciones, no solo de la carrera presidencial en general, sino muchas predicciones relacionadas con el voto para el presidente y de muchas otras razas (cámara, senado, gubnertorial y así sucesivamente), y también utiliza metodologías ampliamente similares a lo largo del tiempo.
Hay muchas formas de hacer esta evaluación (algunas bastante sofisticadas), pero podemos ver algunas formas relativamente simples para tener una idea de ello. Por ejemplo, podría dividir las predicciones de la probabilidad de una ganancia en bandas de, por ejemplo, (50-55%, 55-65%, etc.) y luego ver qué proporción de las predicciones en esa banda surgió; la proporción de predicciones del 50-55% que funcionaron debería estar en algún lugar entre el 50-55%, dependiendo de dónde estaba el promedio (más un margen de variación aleatoria *).
Entonces, mediante ese enfoque (u otros enfoques), puede ver si la distribución de los resultados fue consistente con las predicciones en una elección o en varias elecciones (si no recuerdo mal, creo que sus predicciones han sido más correctas de lo que deberían haber sido). , lo que sugiere que sus errores estándar se han sobreestimado en promedio).
* tenemos que tener cuidado sobre cómo evaluar eso, porque las predicciones no son independientes.
fuente