En una elección, ¿cómo podemos saber con certeza que un candidato será el ganador?

Hubo elecciones generales donde vivo ayer y la cadena de televisión comenzó a llamar a los ganadores mucho antes de que se abrieran todas las papeletas.

Salieron bien en todas las cuentas, y no estoy realmente sorprendido de que lo hayan hecho. Sé que las estadísticas son absolutamente viables. Aún así, tengo curiosidad. Asumiendo:

hemos abierto de papeletas; $i$ $j$
tenemos candidatos cuyos puntajes actuales son ; $n$ $c_1, c_2, c_3, ... c_n$

¿Cómo podemos calcular la certeza con la que el candidato principal es el ganador?

elections zneak
fuente

Tenga en cuenta que, por lo general, tienen acceso a amplios datos de encuestas de salida y otros datos que pueden utilizar para predecir el resultado. Solo necesitan confirmación suficiente del recuento entrante para asegurarse de que no están fuera de lugar debido a un error de muestreo. Ciertamente, hay complejidades involucradas y los recuentos entrantes son generalmente una muestra sesgada, pero las encuestas de salida contribuyen en gran medida a ayudarlos a abordar algunos de esos problemas.

gung - Restablece a Monica

Si se pretende que "con certeza" se tome literalmente, las estadísticas (¿casi?) Nunca pueden responder una pregunta "con certeza". Pero podemos dar respuestas con un alto nivel de confianza de que la respuesta será correcta. (En otras palabras, si obtenemos nuestros datos y hacemos nuestros análisis correctamente, podemos decir cosas como, "Mi respuesta solo será incorrecta alrededor del x% del tiempo")

Emil Friedman

Respuestas:

La principal dificultad en la práctica no es la incertidumbre estadística de que una racha de suerte le hubiera dado a un candidato más votos. La principal dificultad, en un orden de magnitud o más, es que las papeletas que se han abierto casi nunca son una muestra imparcial de los votos emitidos. Si ignoras este efecto, obtienes el famoso error "Dewey derrota a Truman", que ocurrió con una gran muestra sesgada.

En la práctica, los votantes que favorecen a un candidato frente a otro no están distribuidos de manera equitativa por región, por si trabajan durante el día o por si serían desplegados en el extranjero, por lo tanto, votarían en boletas en ausencia. Estas no son pequeñas diferencias.

Creo que lo que hacen las organizaciones de noticias ahora es dividir a la población en grupos y usar los resultados para estimar cómo votó cada grupo (incluida la participación). Estos pueden basarse en modelos y suposiciones previas basadas en elecciones anteriores, no solo en los datos de esta elección. Estos pueden no tener en cuenta las rarezas, como las boletas de mariposa de Palm Beach.

Douglas Zare
fuente

En Australia, hasta hace unos 10-15 años, los partidos conservadores generalmente comenzaron con fuerza en el conteo temprano, y los partidos progresivos regresaron tarde. Las cadenas de televisión probablemente sabían lo que estaba sucediendo, pero la variabilidad probablemente provocó más drama. Todo cambió cuando el nombre de un analista, Antony Green, comenzó a utilizar los resultados de cada stand para tener en cuenta el hecho de que los pequeños puestos en las zonas rurales tienden a hacer sus recuentos y los resultados a tiempo, y tienden a votar de manera más conservadora. Antony famoso llamó correctamente a un resultado electoral horas antes de que alguien más lo usara.

Bogdanovist

Los resultados de cada cabina de años anteriores se pueden utilizar para calibrar con mucha precisión las estimaciones del resultado total.

Peter Ellis

@DouglasZare Creo que quiere decir que las boletas abiertas actualmente no son una muestra aleatoria.

Michael R. Chernick

@Michael Chernick: ¿Cuál es la diferencia entre una muestra no aleatoria y una muestra sesgada? en.wikipedia.org/wiki/Sampling_bias parece usarlos como sinónimos.

Douglas Zare

@DouglasZare Veo en su enlace que Wikipedia utiliza una muestra sesgada como sinónimo de no aleatorio. Creo que es una mala elección. El sesgo general se refiere a la expectativa de que un estimador no sea igual al valor verdadero del parámetro. En el contexto del muestreo, una muestra no aleatoria no implica sesgo para una estimación particular. Puede o no conducir a sesgos.

Michael R. Chernick

En el muestreo por encuesta, se necesita el error estándar de la estimación de la proporción. Depende más de i que de j. También requiere que las boletas abiertas i se seleccionen al azar. Si p es la verdadera proporción final para el candidato A, entonces la varianza de la estimación es

\frac{(1 - \frac{yo}{j}) pag (1 - pag)}{yo}

$\frac{(1-\frac{i}{j})p(1-p)}{i}$

$(1-\frac{i}{j})$ se llama factor de corrección de población finita. Para estimar esta varianza, la estimación usual para p se sustituye por p en la fórmula. El error estándar se obtiene al sacar la raíz cuadrada. Al predecir un ganador, el encuestador podría usar la estimación más o menos 3 errores estándar. Si 0.5 no está contenido en el intervalo, entonces el candidato A se declara ganador si 0.5 está por debajo del límite inferior, o su oponente se declara ganador si 0.5 está por encima del límite superior. Por supuesto, esto solo dice con mucha confianza quién será el ganador en caso de que 0.5 esté fuera del intervalo. El nivel de confianza es 0.99 si tres errores estándar es lo que usa (basado en la aproximación normal al binomio). Si 0.5 está dentro del intervalo, nadie se declara ganador y el encuestador espera a que se acumulen más datos.

Al hacer una proyección, los encuestadores pueden seleccionar una muestra aleatoria estratificada de los votos acumulados para evitar posibles sesgos que pueden ocurrir si se miran todas las papeletas contadas. El problema con mirar todos los votos acumulados es que ciertos recintos completan el recuento sobre otros y pueden no ser representativos de la población.

El artículo aquí proporciona una buena cobertura del problema y numerosas referencias.

Se ha señalado que los votos acumulados pueden proporcionar estimaciones sesgadas de las proporciones porque los precintos que aún no se han informado son recintos que tienden a favorecer al partido con el candidato que está siguiendo o las boletas en ausencia probablemente favorezcan al candidato que está siguiendo y esos votos se cuentan al final. Los encuestadores sofisticados como Harris y Gallup no caen en tales trampas. El simple análisis de la construcción de intervalos de confianza basados en los votos acumulados que he esbozado es solo un factor que se utiliza. Estos encuestadores tienen mucha más información a su disposición. Tienen encuestas que se realizaron poco antes de las elecciones y tienen los patrones de votación de todos los recintos electorales y votos ausentes tomados en las elecciones en los últimos años.

Entonces, si hay sesgos claros que podrían llevar a una elección cerrada en la dirección opuesta, los encuestadores lo reconocerán y no proyectarán un ganador.

En los Estados Unidos, las boletas en ausencia provienen principalmente de los militares en el extranjero y estudiantes universitarios que están en la escuela lejos de casa. Mientras que los militares tienden a ser más conservadores y tienen más probabilidades de votar por los republicanos, los estudiantes universitarios tienden a ser más liberales y tienen más probabilidades de votar por los demócratas. Todas estas consideraciones son tomadas en cuenta.

El cuidado y la sofisticación de las encuestas modernas es la razón por la que no se han producido errores graves como la encuesta Literary Digest de 1936 o la concesión prematura del periódico de Chicago de las elecciones de 1948 a Dewey desde entonces.

Michael R. Chernick
fuente

Aunque la analogía implícita con el muestreo de encuestas es adecuada, ¿esta pregunta no agrega factores complicados? Primero está la posibilidad de más de dos candidatos. En segundo lugar, se trata de un problema de decisión secuencial : a diferencia del encuestador, que generalmente especifica un tamaño de encuesta y toma una decisión en función de la muestra, en cada momento la red tiene una muestra creciente y debe decidir si convocar a la elección o esperar más información. Las aplicaciones de encuesta que cita aquí no parecen aplicables a esta situación dinámica. ¿Y por qué la red usaría 3 SE? (Su reputación está en juego.)

whuber

@whuber Estoy de acuerdo en que hay complicaciones que probablemente no se consideran en la práctica. Elegí por simplicidad un caso de dos candidatos donde la mayoría es una victoria. Creo que esta es la situación que el OP tenía en mente. Ganar por pluralidad con tres o más candidatos implicaría demostrar que el "candidato ganador tenía una proporción más alta que sus oponentes. Ciertamente, si realiza la encuesta más de una vez, debe tenerse en cuenta la naturaleza secuencial del muestreo. No estoy seguro de que es.

Michael R. Chernick

Mi elección de 3 SE fue porque creo que los encuestadores quieren estar "muy seguros" de que tienen razón antes de declarar un ganador. Por lo tanto, creo que 3 se usaría sobre 2. Si desea un riesgo de error aún menor, puede ir más allá de 3. Utilicé la fórmula del error estándar para darle al OP una idea de cómo el nivel de certeza depende de i y j de una manera simple. Para complicar la situación, el resultado sería más complicado y la dependencia I i y j no se vería tan claramente.

Michael R. Chernick

n

$n$

2

$2$

Dado que recibo varios votos negativos, ¿alguien explicaría la justificación?

Michael R. Chernick