Probabilidad de un solo evento futuro en la vida real: ¿Qué significa cuando dicen que "Hillary tiene un 75% de posibilidades de ganar"?

79

Como la elección es un evento único, no es un experimento que se pueda repetir. Entonces, ¿qué significa técnicamente la afirmación "Hillary tiene un 75% de posibilidades de ganar" ? Estoy buscando una definición estadísticamente correcta, no intuitiva o conceptual.

Soy un fanático de las estadísticas aficionadas que está tratando de responder a esta pregunta que surgió en una discusión. Estoy bastante seguro de que hay una buena respuesta objetiva, pero no puedo encontrarlo yo mismo ...

pitosalas
fuente
44
Dado que las encuestas no hacen estimaciones probabilísticas y sin contexto adicional, parece que esa declaración se basa en los resultados actuales de uno de los mercados de predicción, por ejemplo, el Mercado Electrónico de Iowa (ver tippie.uiowa.edu/iem ). Consulte su página de Metodología o cualquiera de los muchos documentos sobre mercados de predicción para obtener explicaciones más profundas.
Mike Hunter
13
Una cuestión clave aquí es si podemos asociar probabilidades a eventos únicos (es decir, únicos), donde no podemos aplicar probabilidades empíricas de la manera de "si lanzo un dado justo una gran cantidad de veces, la proporción de veces que tirar un seis se acercará a un sexto ". Pero hay un argumento de que el simple grado subjetivo de creencia aún debe comportarse en la práctica como una "probabilidad"; más técnicamente, debe obedecer los axiomas de la probabilidad. Entonces, un enfoque filosófico a esta pregunta podría hacer referencia al llamado argumento del Libro holandés .
Silverfish
19
El 75% de las cosas que tienen una probabilidad del 75% de suceder sucederán.
user253751
2
Depende de la fuente de la declaración; en algunos casos se refiere a una probabilidad bajo algún modelo, por ejemplo (como con las evaluaciones de probabilidad en fivethirtyeight.com) pero en otros casos se relaciona con algún otro contexto que puede significar algo más.
Glen_b
3
Había leído de eso que, de las encuestas, el resultado esperado de Clinton es ganar, pero el intervalo de confianza de los números es tal que hay un 25% de posibilidades de que el resultado real no sea el mismo que el resultado esperado .
JimmyB

Respuestas:

60

Todas las respuestas proporcionadas hasta ahora son útiles, pero no son muy precisas estadísticamente, así que intentaré eso. Al mismo tiempo, voy a dar una respuesta general en lugar de centrarme en esta elección.

Lo primero que debemos tener en cuenta cuando estamos tratando de responder preguntas sobre eventos del mundo real como Clinton ganando las elecciones, en oposición a problemas matemáticos inventados como sacar bolas de varios colores de una urna, es que no hay Es una forma razonable y única de responder la pregunta y, por lo tanto, no es una respuesta razonable única. Si alguien simplemente dice "Hillary tiene un 75% de posibilidades de ganar" y no continúa describiendo su modelo de elección, los datos que usaron para hacer sus estimaciones, los resultados de la validación de su modelo, sus supuestos de fondo, si se refieren al voto popular o al voto electoral, etc., entonces realmente no le han dicho lo que quieren decir, y mucho menos le han proporcionado suficiente información para evaluar si su predicción es buena. Además, no es

Entonces, ¿cuáles son algunos procedimientos que un estadístico podría usar para estimar las posibilidades de Clinton? De hecho, ¿cómo podrían enmarcar el problema? En un nivel alto, hay varias nociones de probabilidad en sí, dos de las más importantes son frecuentistas y bayesianas.

  • En una visión frecuentista , una probabilidad representa la frecuencia limitante de un evento en muchos ensayos independientes del mismo experimento, como en la ley de los grandes números (fuertes o débiles). Aunque cualquier elección en particular es un evento único, su resultado puede verse como un sorteo de una población infinita de eventos tanto históricos como hipotéticos, que podrían comprender todas las elecciones presidenciales estadounidenses, o todas las elecciones mundiales en 2016, o algo más. Una probabilidad del 75% de una victoria de Clinton significa que si es una secuencia de resultados (0 o 1) de elecciones independientes que son completamente equivalentes a esta elección en lo que respecta a nuestro modelo, entonces la media muestral de converge en probabilidad a .75 comoX1,X2,X1,X2,,Xnn va al infinito

  • En una visión bayesiana , una probabilidad representa un grado de credibilidad o credibilidad (que puede ser o no una creencia real, dependiendo de si usted es un subjetivista bayesiano). Una probabilidad del 75% de una victoria de Clinton significa que es 75% creíble que ella gane. Las credenciales, a su vez, se pueden elegir libremente (en base a las creencias preexistentes de un modelo o analista) dentro de las restricciones de las leyes básicas de probabilidad (como el teorema de Bayes , y el hecho de que la probabilidad de un evento conjunto no puede exceder la probabilidad marginal de los eventos componentes) Una forma de resumir estas leyes es que si realiza apuestas sobre el resultado de un evento, ofreciendo probabilidades a los jugadores de acuerdo con su credibilidad, entonces ningún jugador puede construir un libro holandéscontra usted, es decir, un conjunto de apuestas que le garantiza que perderá dinero sin importar cómo se desarrolle el evento.

Ya sea que adopte una visión frecuentista o bayesiana sobre la probabilidad, aún quedan muchas decisiones por tomar sobre cómo analizar los datos y estimar la probabilidad. Posiblemente, el método más popular se basa en modelos de regresión paramétrica, como la regresión lineal. En esta configuración, el analista elige una familia paramétrica de distribuciones (es decir, medidas de probabilidad ) que está indexada por un vector de números llamados parámetros. Cada resultado es una variable aleatoria independiente extraída de esta distribución, transformada de acuerdo con las covariables, que son valores conocidos (como la tasa de desempleo) que el analista quiere usar para predecir el resultado. El analista elige estimaciones de los valores de los parámetros utilizando los datos y un criterio de ajuste del modelo, como los mínimos cuadrados.o máxima probabilidad . Usando estas estimaciones, el modelo puede producir una predicción del resultado (posiblemente solo un valor único, posiblemente un intervalo u otro conjunto de valores) para cualquier valor dado de las covariables. En particular, puede predecir el resultado de una elección. Además de los modelos paramétricos, hay modelos no paramétricos (es decir, modelos definidos por una familia de distribuciones que está indexada con un vector de parámetros infinitamente largo), y también métodos para decidir los valores pronosticados que no utilizan ningún modelo mediante el cual se generaron los datos. , como clasificadores del vecino más cercano y bosques aleatorios .

Proponer predicciones es una cosa, pero ¿cómo saber si son buenas? Después de todo, las predicciones suficientemente inexactas son peores que inútiles. Probar predicciones es parte de la práctica más amplia de validación de modelos, es decir, cuantificar qué tan bueno es un modelo dado para un propósito dado. Dos métodos populares para validar las predicciones son la validación cruzada y la división de los datos en subconjuntos de capacitación y prueba antes de ajustar cualquier modelo. En la medida en que las elecciones incluidas en los datos sean representativas de las elecciones presidenciales de EE. UU. De 2016, las estimaciones de precisión predictiva que obtenemos al validar las predicciones nos informarán cuán precisas serán nuestras predicciones de las elecciones presidenciales de EE. UU. De 2016.

Kodiólogo
fuente
Me gusta mucho esta respuesta, señalando que había dos puntos de vista comunes que era lo que esperaba ver. Sin embargo, creo que menos habría sido más.
Mike Wise
44
Ya hay algunas respuestas concisas. Quería hacer un intento más completo.
Kodiólogo
77
No creo que la visión frecuentista sea sostenible. Un evento como una elección es inherentemente no aleatorio. Si repite la elección un millón de veces bajo exactamente las mismas condiciones, obtendrá el mismo resultado un millón de veces. Simplemente introducimos aleatoriamente en nuestros modelos para compensar nuestro conocimiento incompleto de las condiciones.
Stefan
66
Esa es una cuestión no controvertida en la filosofía de la estadística. Mi opinión es que ningún modelo es literalmente cierto, pero algunos modelos son más útiles que otros.
Kodiólogo
32

Cuando los estadísticos quieren predecir un resultado binario (Hillary gana contra Hillary no gana), imaginan que el universo está lanzando una moneda imaginaria: cara, Hillary gana; colas, ella pierde. Para algunos estadísticos, la moneda representa su grado de creencia en el resultado; Para otros, la moneda representa lo que podría suceder si volvemos a organizar las elecciones en las mismas circunstancias una y otra vez. Hablando filosóficamente, es difícil saber a qué nos referimos cuando hablamos de eventos futuros inciertos, incluso antes de arrastrar los números. Pero podemos ver de dónde viene el número.

En este punto de las elecciones, tenemos una secuencia de resultados de encuestas. Estos son de la forma: 1000 personas fueron encuestadas en, digamos, Ohio. El 40% apoya a Trump, el 39% apoya a Hillary, el 21% está indeciso. Habría encuestas similares de elecciones anteriores para los respectivos candidatos demócratas, republicanos (y otros partidos traza). Para años anteriores, también hay resultados. Puede saber que, por ejemplo, los candidatos con el 40% de los votos en una encuesta en julio, ganaron 8 de las 10 elecciones anteriores. O los resultados podrían decir, en 7 de cada 10 elecciones, los demócratas tomaron Ohio. Es posible que sepa cómo Ohio se compara con Texas (tal vez nunca eligen al mismo candidato), puede tener información sobre cómo se rompe el voto indeciso, y puede tener modelos interesantes de lo que sucede cuando un candidato comienza a "surgir".

Entonces, cuando tiene en cuenta las elecciones anteriores, puede decir que la moneda electoral ya se ha lanzado varias veces. La misma elección no se vuelve a ejecutar cada 4 años, pero podemos pretender que es así. De toda esta información, los encuestadores construyen modelos complejos para predecir el resultado de este año.

El 75% de posibilidades de Hillary de ganar es relativo a nuestro estado de conocimiento "hoy". Está diciendo que una candidata con el tipo de resultados de encuestas que tiene "ahora", en los estados que los tiene, y dadas las tendencias en sus encuestas a lo largo de la campaña, gana las elecciones en 3 años de 4 elecciones. Un mes a partir de ahora, su probabilidad de ganar habrá cambiado, porque el modelo se basará en el estado de las encuestas en agosto.

Estados Unidos no ha tenido un número estadísticamente grande de elecciones en su historia, mucho menos desde que comenzaron las encuestas. Tampoco podemos estar seguros de que las tendencias de encuestas de, digamos, los años 70, todavía se apliquen. Así que todo es un poco dudoso.

La conclusión es que Hillary debería comenzar a trabajar en su discurso de inauguración.

Placidia
fuente
1
Ella todavía tiene el discurso de aceptación de nominación para pasar primero.
WBT
26

Cuando los estadísticos dicen esto, no se refieren al margen de victoria ni a la participación en el voto. Están ejecutando una gran cantidad de simulaciones de las elecciones y contando qué porcentaje del voto gana cada candidato. Para muchos modelos presidenciales robustos tienen pronósticos para cada estado. Algunos están cerca y si la carrera se ejecuta varias veces, ambos candidatos podrían ganar. Debido a que los intervalos de predicción muchas veces se superponen a un margen de victoria de 0, no es una respuesta binaria, sino que una simulación nos dirá con mayor precisión qué esperar.

La página de metodología de FiveThirtyEight puede ayudar a comprender un poco más lo que hay debajo del capó: http://fivethirtyeight.com/features/a-users-guide-to-fivethirtyeights-2016-general-election-forecast/

a.powell
fuente
17

Hay un episodio de radio freakonomics que es muy relevante para esta pregunta (en general, no en los detalles de las elecciones). En él, Stephen Dubner entrevista al líder de un proyecto de una agencia de defensa de los Estados Unidos para determinar la mejor manera de pronosticar eventos políticos globales.

[También] ayuda mucho saber más sobre política que la mayoría de la gente. Diría que son condiciones casi necesarias para hacerlo bien. Pero no son suficientes, porque hay muchas personas que son muy inteligentes y de mente cerrada. Hay muchas personas que son muy inteligentes y piensan que es imposible asociar probabilidades a eventos únicos .

Luego discuten qué no hacer

Si hace ese tipo de preguntas, la mayoría de la gente dice: "¿Cómo podría asignar probabilidades a lo que parecen ser eventos históricos únicos?" Simplemente no parece haber ninguna forma de hacerlo. Lo mejor que podemos hacer realmente es usar palabras vagas, hacer pronósticos de palabras vagas. Podemos decir cosas como: “Bueno, esto podría suceder. Esto puede suceder. Esto puede suceder ”. Y decir que algo podría suceder no es decir mucho.

Luego, el episodio entra en las metodologías que los pronosticadores más exitosos utilizaron para estimar estas probabilidades, abogando por un enfoque bayesiano informal

Entonces, sin saber nada sobre el dictador africano o el país, digamos que nunca he oído hablar de este dictador, nunca he oído hablar de este país, y solo miro la tasa base y digo: "hmm, parece alrededor del 87 por ciento ”. Esa sería mi estimación inicial. Entonces la pregunta es: "¿Qué hago?" Bueno, entonces empiezo a aprender algo sobre el país y el dictador. Y si me entero de que el dictador en cuestión tiene 91 años y tiene cáncer de próstata avanzado, debería ajustar mi probabilidad . Y si me entero de que hay disturbios en la ciudad capital y hay indicios de golpes militares en el horizonte, debería ajustar mi probabilidad nuevamente . Pero comenzar con la probabilidad de tasa base es una buena manera de al menos asegurarse de que inicialmente va a estar en el estadio de plausibilidad.

El episodio se llama Cómo ser menos terrible para predecir el futuro , y es una escucha muy divertida. ¡Te animo a que lo revises si estás interesado en este tipo de cosas!

Matthew Drury
fuente
3
+1. En una publicación anterior esbocé este enfoque con un ejemplo en ejecución. Intenté hacerlo de una manera neutral con respecto al debate bayesiano vs frequentista, indicando que los métodos bayesianos no son el único medio para estimar probabilidades, hacer pronósticos o proporcionar información útil sobre eventos aparentemente únicos. Traté de identificar exactamente qué papel juega la probabilidad en tales análisis e, implícitamente, enfatizar la necesidad de estimar las probabilidades con precisión (en lugar de simplemente inventarlas de una manera "no informativa").
whuber
1
Relacionado con este hilo está la controversia de las "manos calientes". ¿En un artículo único titulado Sorprendido por las falacias del jugador y de las manos calientes? Miller y Sanjuro ofrecen pruebas convincentes de que la literatura ha estado equivocada durante décadas al negar la existencia de "manos ardientes". La literatura histórica se basó en la probabilidad incondicional de los ensayos de iid Bernoulli, mientras que la probabilidad condicional de una secuencia finita de los mismos ensayos confirma la intuición de las manos calientes. De manera similar para las elecciones, uno puede tratar esta elección como el resultado de una secuencia de resultados condicionalmente probabilísticos.
Mike Hunter
15

La elección de 2016 es de hecho un evento único. Pero también lo es el lanzamiento de una moneda o el lanzamiento de un dado.

Cuando alguien afirma que sabe que un candidato tiene un 75% de posibilidades de ganar, no está prediciendo el resultado. Afirman que conocen la forma del dado.

El resultado de las elecciones no puede invalidar esto. Pero si el modelo que usan para llegar al 75% se prueba en muchas elecciones, se podría demostrar que tiene un valor predictivo limitado. O puede nacer como valioso.

Por supuesto, una vez que los candidatos conocen un predictor valioso, pueden cambiar su comportamiento y el modelo puede volverse irrelevante. O puede explotar todo fuera de proporción. Solo mira lo que sucede en Iowa.

naranja confitada
fuente
77
+1 para "Afirman que conocen la forma del dado".
WBT
@WBT, no, ese es un mensaje completamente incorrecto. El 75% no tiene nada que ver con las probabilidades (físicas) que (se presume) gobiernan eventos aleatorios, como tiradas de dados. Significan que tienen un 75% de grado de certeza
innisfree
1
@innisfree La metáfora sigue siendo útil. Aunque reconozco por sus comentarios sobre otras respuestas que no está de acuerdo (y puede publicar otra respuesta), el 75% es alguien que afirma que la distribución de probabilidad de resultado es igual a la de un dado de cuatro lados (piramidal) en el que tres de cuatro lados están etiquetados "Hillary". La metáfora fluye un poco mejor si considera que "forma" también incluye las etiquetas.
WBT
6

Cuando alguien dice que "Hillary tiene un 75% de posibilidades de ganar", significa que si les ofreciera una apuesta en la que una persona obtiene 25 dólares si Hillary gana y la otra persona obtiene 75 dólares si Hillary no gana, considerarían que una apuesta justa y no tiene ninguna razón particular para preferir a ninguno de los dos lados.

Estos porcentajes generalmente provienen de mercados de predicción. Estos resumen toda la información disponible y generalmente superan a los métodos analíticos para predecir la mayoría de los eventos.

Los mercados de predicción ofrecen a las personas la oportunidad de apostar si un evento en particular ocurrirá o no. Los pagos se establecen mediante negociaciones entre las personas de ambos lados de la propuesta. En general, las personas que tienen un conocimiento especial sobre una propuesta tratarán de aprovechar ese conocimiento para ganar dinero, lo que tiene el efecto secundario de filtrar esa información.

Por ejemplo, supongamos que hay un mercado de predicción sobre si una celebridad en particular vivirá hasta el final de este año. El público conoce la edad de la celebridad y cualquiera puede buscar la probabilidad básica de que la celebridad muera para fin de año. Si eso fuera todo lo que se sabía, esperaría que las personas estuvieran dispuestas a apostar a un lado u otro de esta proposición aproximadamente con esa probabilidad.

Ahora, supongamos que alguien supiera que la celebridad tenía mala salud pero la estaba ocultando. O incluso decir que mucha gente sabía que la familia de esa celebridad tenía antecedentes de enfermedades cardíacas que reducirían sus probabilidades de sobrevivir. Las personas con esa información estarán dispuestas a tomar un lado de esa propuesta, haciendo que la tasa se ajuste justo cuando los compradores suben el precio de las acciones y los vendedores lo bajan.

En otras palabras, cuando las probabilidades son demasiado bajas, las personas que buscan obtener ganancias las empujan hacia arriba. Y cuando son demasiado altos, las personas que buscan obtener ganancias los empujan hacia abajo. El precio de la apuesta refleja, en última instancia, la sabiduría colectiva de todos sobre las probabilidades de que ocurra la propuesta, así como todos los precios reflejan la sabiduría colectiva sobre los costos y valores de las cosas.

David Schwartz
fuente
2
Es una pena que ninguna otra respuesta mencione las apuestas, esta es esencialmente la definición de lo que es una probabilidad ... parece que todos la olvidaron.
Michael Le Barbier Grünewald
2
@ MichaelGrünewald: No del todo. Si bien es posible tener probabilidades de juego que reflejen las verdaderas probabilidades (como las relacionadas con las ruedas de ruleta o los juegos de cartas), eso no es lo que es. Las probabilidades de apostar sobre quién ganará las elecciones son similares a los precios de las acciones ... se basan principalmente en cómo se siente la gente.
Robert Harvey
@RobertHarvey El punto es que las probabilidades expresan una creencia subjetiva (la palabra expectativa debería recordarnos eso). Así que sí, puedo construir modelos, información agregada utilizando las formas más inteligentes, pero al final, todo lo que puedo decir es “dado toda la información disponible que pueda acceder a, yo creo que estas cuotas de apuestas son justos”. No existen las "probabilidades verdaderas": el cálculo de probabilidad nos ayuda a calcular nuestras creencias en consecuencia. A menos que tal vez le interese definir "probabilidades verdaderas".
Michael Le Barbier Grünewald
@RobertHarvey Puede argumentar que todo se basa en cómo se siente la gente. Si hago un argumento matemático, es porque siento que es correcto. Las personas son libres de decidir qué probabilidades aceptar para una apuesta de propuesta por cualquier método que deseen, arbitrario o riguroso. En un buen método de predicción, hay suficientes personas con información que el resultado final transmite la sabiduría de la multitud.
David Schwartz
4

La pregunta clave es cómo asignar una probabilidad a un evento único. La respuesta es que desarrolle un modelo por el cual ya no es único. Creo que un ejemplo más fácil es ¿cuál es la probabilidad de que el presidente muera en el cargo? Puede ver al presidente como una persona de cierta edad, como una persona de cierta edad y sexo. Etc ... cada modelo le da una predicción diferente ... a priori no hay un modelo correcto ... depende del estadístico seleccionar qué modelo es el más apropiado.

seanv507
fuente
1
Aunque di la respuesta más larga por encima de mi marca de verificación "correcta", realmente me gusta esta también. Mover la pregunta a probabilidades de que el presidente muera en el cargo lo aclara. ¡Gracias a TODOS por toda su consideración!
pitosalas
1
Existe un marco (estadísticas bayesianas) para asignar probabilidades (grados de plausibilidad) a cualquier hipótesis, incluidos los resultados de eventos únicos
disponible el
3

Dado que las encuestas muestran una carrera muy ajustada, el 75% puede o no ser exacto.

Estás preguntando qué significa, no cómo calcularon esto. La implicación es que (si ignoramos a alguien más, excepto a Clinton y su oponente principal), tendrías que apostar $ 3 para obtener un retorno de $ 4 si gana. Alternativamente, una apuesta de $ 1 en el otro corredor devolvería $ 4 si gana.

Mi respuesta hace una pequeña distinción, entre la posibilidad real de que cualquiera de los candidatos gane y lo que las personas (jugadores o probabilidades) esperan. Sospecho que cuando ve números como este, por ejemplo, 75%, está viendo los números de probabilidades, cuando ve 49 a 48%, está viendo resultados de encuestas.

JoeTaxpayer
fuente
2
Y dado que el interrogador está preguntando sobre el significado estadístico, tenga en cuenta que aunque esto no suele suceder en las elecciones, es muy probable que pueda predecir un resultado "ajustado", por ejemplo, 52/48, pero aún así tiene un 75% de confianza en el vencedor sin referirse a Las Vegas por sus probabilidades. Por ejemplo, en la final masculina de 100m de los Juegos Olímpicos, el margen de victoria será inferior al 4%, pero su modelo estadístico podría predecir un probable ganador. Se trata del intervalo de confianza en ese 52/48, que es lo suficientemente grande para predecir elecciones que generalmente no se traduce en una probabilidad del 75%.
Steve Jessop
1
Creo que JoeTaxpayer's es una perspectiva muy útil, pragmática (en el sentido filosófico de ese término). Es una presentación teórica de decisiones algo imprecisa. Es cómo se establecen las cuotas de apuestas parimutuel. Otras caracterizaciones pueden ser "la sabiduría de la multitud" o un "precio basado en el mercado". Realmente aborda la pregunta, ¿qué puedo hacer con esa información (suponiendo que lo crea)?
DWin
1
No he visto mención del colegio electoral. POTUS es elegido a través del colegio electoral. Entonces, si Clinton obtiene solo el 51% del 51% de la universidad electoral, y nada del resto, entonces con solo ~ 26% del voto popular, ella gana. Por lo tanto, los resultados de la encuesta, que generalmente no consideran la universidad electoral, a veces son erróneos.
MikeP
2
Las encuestas de @MikeP no informan la posibilidad de ganar, informan, bueno, los resultados de la encuesta. Los modelos que informan las posibilidades de ganar se basan en datos de encuestas en varios estados y tienen en cuenta el colegio electoral, al menos, los respetables lo hacen.
hobbs
2

Si lo están haciendo bien, algo sucede aproximadamente tres cuartos de esos momentos en que dicen que tiene un 75% de posibilidades de que suceda. (o más generalmente, la misma idea adaptada sobre todos los pronósticos porcentuales)

Es posible atribuir más significado que eso dependiendo de nuestras opiniones filosóficas y de cuánto creemos en los modelos, pero este punto de vista pragmático es algo así como el mínimo común denominador, al menos, los métodos estadísticos intentan (aunque posiblemente como un lado efecto en lugar de directamente) para hacer pronósticos que obedecen a este punto de vista pragmático.


fuente
No, el significado es claramente epistemológico / bayesiano, 75% de grado de creencia. Nadie está imaginando pseudoexperimentos en los que el resultado de la elección es una variable aleatoria.
innisfree
@Innisfree: si la mitad de las veces que crees en un 75% de algo resulta ser incorrecto, ¡debes recalibrar cómo estás midiendo tu creencia! No es necesario involucrar experimentos imaginados, solo una medida objetiva de la frecuencia con la que su creencia se ha traducido en realidad en el pasado.