Como la elección es un evento único, no es un experimento que se pueda repetir. Entonces, ¿qué significa técnicamente la afirmación "Hillary tiene un 75% de posibilidades de ganar" ? Estoy buscando una definición estadísticamente correcta, no intuitiva o conceptual.
Soy un fanático de las estadísticas aficionadas que está tratando de responder a esta pregunta que surgió en una discusión. Estoy bastante seguro de que hay una buena respuesta objetiva, pero no puedo encontrarlo yo mismo ...
probability
prediction
politics
pitosalas
fuente
fuente
Respuestas:
Todas las respuestas proporcionadas hasta ahora son útiles, pero no son muy precisas estadísticamente, así que intentaré eso. Al mismo tiempo, voy a dar una respuesta general en lugar de centrarme en esta elección.
Lo primero que debemos tener en cuenta cuando estamos tratando de responder preguntas sobre eventos del mundo real como Clinton ganando las elecciones, en oposición a problemas matemáticos inventados como sacar bolas de varios colores de una urna, es que no hay Es una forma razonable y única de responder la pregunta y, por lo tanto, no es una respuesta razonable única. Si alguien simplemente dice "Hillary tiene un 75% de posibilidades de ganar" y no continúa describiendo su modelo de elección, los datos que usaron para hacer sus estimaciones, los resultados de la validación de su modelo, sus supuestos de fondo, si se refieren al voto popular o al voto electoral, etc., entonces realmente no le han dicho lo que quieren decir, y mucho menos le han proporcionado suficiente información para evaluar si su predicción es buena. Además, no es
Entonces, ¿cuáles son algunos procedimientos que un estadístico podría usar para estimar las posibilidades de Clinton? De hecho, ¿cómo podrían enmarcar el problema? En un nivel alto, hay varias nociones de probabilidad en sí, dos de las más importantes son frecuentistas y bayesianas.
En una visión frecuentista , una probabilidad representa la frecuencia limitante de un evento en muchos ensayos independientes del mismo experimento, como en la ley de los grandes números (fuertes o débiles). Aunque cualquier elección en particular es un evento único, su resultado puede verse como un sorteo de una población infinita de eventos tanto históricos como hipotéticos, que podrían comprender todas las elecciones presidenciales estadounidenses, o todas las elecciones mundiales en 2016, o algo más. Una probabilidad del 75% de una victoria de Clinton significa que si es una secuencia de resultados (0 o 1) de elecciones independientes que son completamente equivalentes a esta elección en lo que respecta a nuestro modelo, entonces la media muestral de converge en probabilidad a .75 comoX1,X2,… X1,X2,…,Xn n va al infinito
En una visión bayesiana , una probabilidad representa un grado de credibilidad o credibilidad (que puede ser o no una creencia real, dependiendo de si usted es un subjetivista bayesiano). Una probabilidad del 75% de una victoria de Clinton significa que es 75% creíble que ella gane. Las credenciales, a su vez, se pueden elegir libremente (en base a las creencias preexistentes de un modelo o analista) dentro de las restricciones de las leyes básicas de probabilidad (como el teorema de Bayes , y el hecho de que la probabilidad de un evento conjunto no puede exceder la probabilidad marginal de los eventos componentes) Una forma de resumir estas leyes es que si realiza apuestas sobre el resultado de un evento, ofreciendo probabilidades a los jugadores de acuerdo con su credibilidad, entonces ningún jugador puede construir un libro holandéscontra usted, es decir, un conjunto de apuestas que le garantiza que perderá dinero sin importar cómo se desarrolle el evento.
Ya sea que adopte una visión frecuentista o bayesiana sobre la probabilidad, aún quedan muchas decisiones por tomar sobre cómo analizar los datos y estimar la probabilidad. Posiblemente, el método más popular se basa en modelos de regresión paramétrica, como la regresión lineal. En esta configuración, el analista elige una familia paramétrica de distribuciones (es decir, medidas de probabilidad ) que está indexada por un vector de números llamados parámetros. Cada resultado es una variable aleatoria independiente extraída de esta distribución, transformada de acuerdo con las covariables, que son valores conocidos (como la tasa de desempleo) que el analista quiere usar para predecir el resultado. El analista elige estimaciones de los valores de los parámetros utilizando los datos y un criterio de ajuste del modelo, como los mínimos cuadrados.o máxima probabilidad . Usando estas estimaciones, el modelo puede producir una predicción del resultado (posiblemente solo un valor único, posiblemente un intervalo u otro conjunto de valores) para cualquier valor dado de las covariables. En particular, puede predecir el resultado de una elección. Además de los modelos paramétricos, hay modelos no paramétricos (es decir, modelos definidos por una familia de distribuciones que está indexada con un vector de parámetros infinitamente largo), y también métodos para decidir los valores pronosticados que no utilizan ningún modelo mediante el cual se generaron los datos. , como clasificadores del vecino más cercano y bosques aleatorios .
Proponer predicciones es una cosa, pero ¿cómo saber si son buenas? Después de todo, las predicciones suficientemente inexactas son peores que inútiles. Probar predicciones es parte de la práctica más amplia de validación de modelos, es decir, cuantificar qué tan bueno es un modelo dado para un propósito dado. Dos métodos populares para validar las predicciones son la validación cruzada y la división de los datos en subconjuntos de capacitación y prueba antes de ajustar cualquier modelo. En la medida en que las elecciones incluidas en los datos sean representativas de las elecciones presidenciales de EE. UU. De 2016, las estimaciones de precisión predictiva que obtenemos al validar las predicciones nos informarán cuán precisas serán nuestras predicciones de las elecciones presidenciales de EE. UU. De 2016.
fuente
Cuando los estadísticos quieren predecir un resultado binario (Hillary gana contra Hillary no gana), imaginan que el universo está lanzando una moneda imaginaria: cara, Hillary gana; colas, ella pierde. Para algunos estadísticos, la moneda representa su grado de creencia en el resultado; Para otros, la moneda representa lo que podría suceder si volvemos a organizar las elecciones en las mismas circunstancias una y otra vez. Hablando filosóficamente, es difícil saber a qué nos referimos cuando hablamos de eventos futuros inciertos, incluso antes de arrastrar los números. Pero podemos ver de dónde viene el número.
En este punto de las elecciones, tenemos una secuencia de resultados de encuestas. Estos son de la forma: 1000 personas fueron encuestadas en, digamos, Ohio. El 40% apoya a Trump, el 39% apoya a Hillary, el 21% está indeciso. Habría encuestas similares de elecciones anteriores para los respectivos candidatos demócratas, republicanos (y otros partidos traza). Para años anteriores, también hay resultados. Puede saber que, por ejemplo, los candidatos con el 40% de los votos en una encuesta en julio, ganaron 8 de las 10 elecciones anteriores. O los resultados podrían decir, en 7 de cada 10 elecciones, los demócratas tomaron Ohio. Es posible que sepa cómo Ohio se compara con Texas (tal vez nunca eligen al mismo candidato), puede tener información sobre cómo se rompe el voto indeciso, y puede tener modelos interesantes de lo que sucede cuando un candidato comienza a "surgir".
Entonces, cuando tiene en cuenta las elecciones anteriores, puede decir que la moneda electoral ya se ha lanzado varias veces. La misma elección no se vuelve a ejecutar cada 4 años, pero podemos pretender que es así. De toda esta información, los encuestadores construyen modelos complejos para predecir el resultado de este año.
El 75% de posibilidades de Hillary de ganar es relativo a nuestro estado de conocimiento "hoy". Está diciendo que una candidata con el tipo de resultados de encuestas que tiene "ahora", en los estados que los tiene, y dadas las tendencias en sus encuestas a lo largo de la campaña, gana las elecciones en 3 años de 4 elecciones. Un mes a partir de ahora, su probabilidad de ganar habrá cambiado, porque el modelo se basará en el estado de las encuestas en agosto.
Estados Unidos no ha tenido un número estadísticamente grande de elecciones en su historia, mucho menos desde que comenzaron las encuestas. Tampoco podemos estar seguros de que las tendencias de encuestas de, digamos, los años 70, todavía se apliquen. Así que todo es un poco dudoso.
La conclusión es que Hillary debería comenzar a trabajar en su discurso de inauguración.
fuente
Cuando los estadísticos dicen esto, no se refieren al margen de victoria ni a la participación en el voto. Están ejecutando una gran cantidad de simulaciones de las elecciones y contando qué porcentaje del voto gana cada candidato. Para muchos modelos presidenciales robustos tienen pronósticos para cada estado. Algunos están cerca y si la carrera se ejecuta varias veces, ambos candidatos podrían ganar. Debido a que los intervalos de predicción muchas veces se superponen a un margen de victoria de 0, no es una respuesta binaria, sino que una simulación nos dirá con mayor precisión qué esperar.
La página de metodología de FiveThirtyEight puede ayudar a comprender un poco más lo que hay debajo del capó: http://fivethirtyeight.com/features/a-users-guide-to-fivethirtyeights-2016-general-election-forecast/
fuente
Hay un episodio de radio freakonomics que es muy relevante para esta pregunta (en general, no en los detalles de las elecciones). En él, Stephen Dubner entrevista al líder de un proyecto de una agencia de defensa de los Estados Unidos para determinar la mejor manera de pronosticar eventos políticos globales.
Luego discuten qué no hacer
Luego, el episodio entra en las metodologías que los pronosticadores más exitosos utilizaron para estimar estas probabilidades, abogando por un enfoque bayesiano informal
El episodio se llama Cómo ser menos terrible para predecir el futuro , y es una escucha muy divertida. ¡Te animo a que lo revises si estás interesado en este tipo de cosas!
fuente
La elección de 2016 es de hecho un evento único. Pero también lo es el lanzamiento de una moneda o el lanzamiento de un dado.
Cuando alguien afirma que sabe que un candidato tiene un 75% de posibilidades de ganar, no está prediciendo el resultado. Afirman que conocen la forma del dado.
El resultado de las elecciones no puede invalidar esto. Pero si el modelo que usan para llegar al 75% se prueba en muchas elecciones, se podría demostrar que tiene un valor predictivo limitado. O puede nacer como valioso.
Por supuesto, una vez que los candidatos conocen un predictor valioso, pueden cambiar su comportamiento y el modelo puede volverse irrelevante. O puede explotar todo fuera de proporción. Solo mira lo que sucede en Iowa.
fuente
Cuando alguien dice que "Hillary tiene un 75% de posibilidades de ganar", significa que si les ofreciera una apuesta en la que una persona obtiene 25 dólares si Hillary gana y la otra persona obtiene 75 dólares si Hillary no gana, considerarían que una apuesta justa y no tiene ninguna razón particular para preferir a ninguno de los dos lados.
Estos porcentajes generalmente provienen de mercados de predicción. Estos resumen toda la información disponible y generalmente superan a los métodos analíticos para predecir la mayoría de los eventos.
Los mercados de predicción ofrecen a las personas la oportunidad de apostar si un evento en particular ocurrirá o no. Los pagos se establecen mediante negociaciones entre las personas de ambos lados de la propuesta. En general, las personas que tienen un conocimiento especial sobre una propuesta tratarán de aprovechar ese conocimiento para ganar dinero, lo que tiene el efecto secundario de filtrar esa información.
Por ejemplo, supongamos que hay un mercado de predicción sobre si una celebridad en particular vivirá hasta el final de este año. El público conoce la edad de la celebridad y cualquiera puede buscar la probabilidad básica de que la celebridad muera para fin de año. Si eso fuera todo lo que se sabía, esperaría que las personas estuvieran dispuestas a apostar a un lado u otro de esta proposición aproximadamente con esa probabilidad.
Ahora, supongamos que alguien supiera que la celebridad tenía mala salud pero la estaba ocultando. O incluso decir que mucha gente sabía que la familia de esa celebridad tenía antecedentes de enfermedades cardíacas que reducirían sus probabilidades de sobrevivir. Las personas con esa información estarán dispuestas a tomar un lado de esa propuesta, haciendo que la tasa se ajuste justo cuando los compradores suben el precio de las acciones y los vendedores lo bajan.
En otras palabras, cuando las probabilidades son demasiado bajas, las personas que buscan obtener ganancias las empujan hacia arriba. Y cuando son demasiado altos, las personas que buscan obtener ganancias los empujan hacia abajo. El precio de la apuesta refleja, en última instancia, la sabiduría colectiva de todos sobre las probabilidades de que ocurra la propuesta, así como todos los precios reflejan la sabiduría colectiva sobre los costos y valores de las cosas.
fuente
La pregunta clave es cómo asignar una probabilidad a un evento único. La respuesta es que desarrolle un modelo por el cual ya no es único. Creo que un ejemplo más fácil es ¿cuál es la probabilidad de que el presidente muera en el cargo? Puede ver al presidente como una persona de cierta edad, como una persona de cierta edad y sexo. Etc ... cada modelo le da una predicción diferente ... a priori no hay un modelo correcto ... depende del estadístico seleccionar qué modelo es el más apropiado.
fuente
Dado que las encuestas muestran una carrera muy ajustada, el 75% puede o no ser exacto.
Estás preguntando qué significa, no cómo calcularon esto. La implicación es que (si ignoramos a alguien más, excepto a Clinton y su oponente principal), tendrías que apostar $ 3 para obtener un retorno de $ 4 si gana. Alternativamente, una apuesta de $ 1 en el otro corredor devolvería $ 4 si gana.
Mi respuesta hace una pequeña distinción, entre la posibilidad real de que cualquiera de los candidatos gane y lo que las personas (jugadores o probabilidades) esperan. Sospecho que cuando ve números como este, por ejemplo, 75%, está viendo los números de probabilidades, cuando ve 49 a 48%, está viendo resultados de encuestas.
fuente
Si lo están haciendo bien, algo sucede aproximadamente tres cuartos de esos momentos en que dicen que tiene un 75% de posibilidades de que suceda. (o más generalmente, la misma idea adaptada sobre todos los pronósticos porcentuales)
Es posible atribuir más significado que eso dependiendo de nuestras opiniones filosóficas y de cuánto creemos en los modelos, pero este punto de vista pragmático es algo así como el mínimo común denominador, al menos, los métodos estadísticos intentan (aunque posiblemente como un lado efecto en lugar de directamente) para hacer pronósticos que obedecen a este punto de vista pragmático.
fuente