¿Cómo podemos juzgar la precisión de las predicciones de Nate Silver?

19

En primer lugar, da probabilidad de resultados. Entonces, por ejemplo, sus predicciones para las elecciones estadounidenses son actualmente del 82% de Clinton frente al 18% de Trump.

Ahora, incluso si Trump gana, ¿cómo sé que no fue solo el 18% del tiempo que debería haber ganado?

El otro problema es que sus probabilidades cambian con el tiempo. Entonces, el 31 de julio, fue casi un 50-50 entre Trump y Clinton.

Mi pregunta es, dado que tiene una probabilidad diferente cada día para el mismo evento futuro con el mismo resultado, ¿cómo puedo medir qué tan exacto fue para cada día que hizo una predicción basada en la información disponible hasta ese día?

Sopa de dinosaurio
fuente
1
Sospecho que no podemos. Se necesita un estándar de oro para hacer dicha evaluación, y lo mejor que tenemos es solo las observaciones de elecciones anteriores que son difíciles de comparar (ya que cada elección incluiría métodos alternativos de muestreo y comportamiento de los votantes). Pero no soy un experto en encuestas electorales, así que lo dejo como un comentario y no como una respuesta :)
Tal Galili
2
@TalGalili: podemos decir al menos algo, usando reglas de puntuación , así como, por ejemplo, podemos decir algo sobre parámetros no observables que estimamos en regresiones.
S. Kolassa - Restablece a Monica el
Esta es probablemente una "regla de puntuación", pero, para n eventos, multiplique su probabilidad de que ocurran esos eventos y tome la raíz enésima para obtener un tipo promedio de tasa de predicción (suponemos que nunca hace predicciones del 0%). Puede considerar cada probabilidad diaria como una predicción separada.
barrycarter
¿Por qué las probabilidades no pueden cambiar con el tiempo? En un evento deportivo, ¿no cambian las probabilidades cada vez que se marca un gol o se pega un jonrón?
Rodrigo de Azevedo
8
El modelo de Silver ofrece mucho más que una simple estimación de probabilidad: proporciona un margen de victoria estimado, que se deriva de las probabilidades de ganar y los márgenes de victoria para cada uno de los 50 estados. Por lo tanto, proporciona una estimación puntual y un margen de error para 50 mediciones diferentes (aunque con un alto grado de correlación, probablemente alto) entre ellas, no solo prediciendo un único resultado binario.
Micah

Respuestas:

14

Los pronósticos probabilísticos (o, como también se los conoce, pronósticos de densidad) se pueden evaluar utilizando , es decir, funciones que mapean un pronóstico de densidad y un resultado observado a un llamado puntaje, que se minimiza en expectativa si el pronóstico de densidad de hecho es la verdadera densidad que se pronostica. Las reglas de puntuación adecuadas son reglas de puntuación que se minimizan en la expectativa solo por la verdadera densidad futura.

Existen bastantes reglas de puntuación adecuadas, comenzando con Brier (1950, Monthly Weather Review ) en el contexto del pronóstico meteorológico probabilístico. Czado y col. (2009, Biometrics ) ofrecen una descripción más reciente del caso discreto. Gneiting y Katzfuss (2014, Revisión anual de estadísticas y su aplicación ) ofrecen una visión general de los pronósticos probabilísticos en general: Gneiting en particular ha sido muy activo en el avance de la causa de las reglas de puntuación adecuadas.

Sin embargo, las reglas de puntuación son algo difíciles de interpretar, y realmente solo ayudan a comparar múltiples pronósticos probabilísticos: el que tiene la puntuación más baja es mejor. Es decir, hasta la variación de muestreo, por lo que siempre es mejor tener muchos pronósticos para evaluar, cuyos puntajes promediaríamos.

Cómo incluir la "actualización" de los pronósticos de Silver u otros es una buena pregunta. Podemos usar reglas de puntuación para comparar "instantáneas" de diferentes pronósticos en un solo punto en el tiempo, o incluso podríamos mirar los pronósticos probabilísticos de Silver a lo largo del tiempo y calcular los puntajes en cada punto de tiempo. Uno esperaría que el puntaje sea cada vez más bajo (es decir, los pronósticos de densidad mejoran cada vez más) cuanto más cerca esté el resultado real.

S. Kolassa - Restablece a Monica
fuente
55
Otra forma de decirlo: la probabilidad pronosticada individual de un evento único no se puede evaluar solo, pero los pronosticadores se pueden evaluar (por funciones de puntuación).
kjetil b halvorsen
1
Para "se minimiza en la expectativa", creo que la cuestión clave es la expectativa sobre qué conjunto? ¿Tomamos todas las predicciones de Nate Silver? ¿Solo los de las elecciones presidenciales? No sé si hay una sola respuesta aquí. Para comparar diferentes pronosticadores, las predicciones sobre cualquier conjunto común de eventos podrían ser razonables.
GeoMatt22
@ GeoMatt22: tiene una metodología razonablemente similar para otras elecciones, por lo que puede ser válido agregar todas las predicciones electorales
DVK
11

En el libro de Nate Silver, The Signal and the Noise , escribe lo siguiente, que puede proporcionar una idea de su pregunta:

Una de las pruebas más importantes de un pronóstico, diría que es la más importante, se llama calibración. De todas las veces que dijiste que había un 40% de probabilidad de lluvia, ¿con qué frecuencia realmente llovió? Si, a la larga, realmente llovió alrededor del 40% del tiempo, eso significa que sus pronósticos estaban bien calibrados. Si terminó lloviendo solo el 20 por ciento de las veces, o el 60 por ciento de las veces, no lo fueron.

Entonces esto plantea algunos puntos. En primer lugar, como señala correctamente, realmente no puede hacer ninguna inferencia sobre la calidad de un pronóstico individual por el resultado del evento que pronostica. Lo mejor que puede hacer es ver cómo funciona su modelo en el transcurso de muchas predicciones.

Otra cosa en la que es importante pensar es que las predicciones que proporciona Nate Silver no son un evento en sí, sino la distribución de probabilidad del evento. Entonces, en el caso de la carrera presidencial, está estimando la distribución de probabilidad de que Clinton, Trump o Johnson ganen la carrera. Entonces, en este caso, está estimando una distribución multinomial.

Pero en realidad está prediciendo la carrera a un nivel mucho más granular. Sus predicciones estiman las distribuciones de probabilidad del porcentaje de votos que cada candidato obtendrá en cada estado. Entonces, si consideramos 3 candidatos, esto podría caracterizarse por un vector aleatorio de longitud 51 * 3 y tomar valores en el intervalo [0, 1], sujeto a la restricción de que las proporciones suman 1 para las proporciones dentro de un estado. El número 51 se debe a que otros son 50 estados + DC (y de hecho creo que en realidad son unos pocos más porque algunos estados pueden dividir sus votos electorales en la universidad), y el número 3 se debe a la cantidad de candidatos.

Ahora no tiene muchos datos para evaluar sus predicciones: solo ha proporcionado predicciones para las últimas 3 elecciones de las que tengo conocimiento (¿hubo más?). Por lo tanto, no creo que haya ninguna manera de evaluar su modelo de manera justa, a menos que realmente tenga el modelo a mano y pueda evaluarlo utilizando datos simulados. Pero todavía hay algunas cosas interesantes que podrías mirar. Por ejemplo, creo que sería interesante observar con qué precisión predijo las proporciones de votación estado por estado en un momento determinado, por ejemplo, una semana después de las elecciones. Si repite esto para varios puntos de tiempo, por ejemplo, una semana, un mes, 6 meses y un año, podría proporcionar una exposición bastante interesante para sus predicciones. Una advertencia importante: los resultados están altamente correlacionados en todos los estados dentro de una elección, por lo que realmente no puede decir que tiene 51 estados * 3 elecciones independientes de predicciones (es decir, si el modelo subestima el desempeño de los candidatos en un estado, también tenderá a subestimarse en otros estados) . Pero tal vez lo pensaría así de todos modos solo para que tenga suficientes datos para hacer algo significativo.

dpritch
fuente
4

Para cualquier predicción que no pueda, más de lo que podemos decir si la afirmación "esta moneda tiene un 60% de posibilidades de que salga cara" está cerca de corregirse con un solo lanzamiento.

Sin embargo, puede evaluar su metodología a través de muchas predicciones: para una elección dada, hace muchas predicciones, no solo de la carrera presidencial en general, sino muchas predicciones relacionadas con el voto para el presidente y de muchas otras razas (cámara, senado, gubnertorial y así sucesivamente), y también utiliza metodologías ampliamente similares a lo largo del tiempo.

Hay muchas formas de hacer esta evaluación (algunas bastante sofisticadas), pero podemos ver algunas formas relativamente simples para tener una idea de ello. Por ejemplo, podría dividir las predicciones de la probabilidad de una ganancia en bandas de, por ejemplo, (50-55%, 55-65%, etc.) y luego ver qué proporción de las predicciones en esa banda surgió; la proporción de predicciones del 50-55% que funcionaron debería estar en algún lugar entre el 50-55%, dependiendo de dónde estaba el promedio (más un margen de variación aleatoria *).

Entonces, mediante ese enfoque (u otros enfoques), puede ver si la distribución de los resultados fue consistente con las predicciones en una elección o en varias elecciones (si no recuerdo mal, creo que sus predicciones han sido más correctas de lo que deberían haber sido). , lo que sugiere que sus errores estándar se han sobreestimado en promedio).

* tenemos que tener cuidado sobre cómo evaluar eso, porque las predicciones no son independientes.

Glen_b -Reinstate a Monica
fuente