Necesito ayuda para explicar y citar textos estadísticos básicos, documentos u otras referencias, por qué generalmente es incorrecto usar la estadística de margen de error (MOE) informada en las encuestas para declarar ingenuamente un empate estadístico.
Un ejemplo: el candidato A lidera al candidato B en una encuesta, por ciento, margen de error de para votantes encuestados.4.5 % 500
Mi amigo razona así:
Debido a las complejidades del modelado estadístico, el margen de error significa que el verdadero apoyo de A podría ser tan bajo como 34.5 por ciento y B podría ser tan alto como 35.5 por ciento. Por lo tanto, A y B están realmente en un punto muerto estadístico.
Toda la ayuda apreciada en la articulación clara de la falla del razonamiento de mi amigo. He tratado de explicar que es incorrecto rechazar ingenuamente la hipótesis "A conduce a B" si .
Respuestas:
Mi primer intento de respuesta fue defectuoso (ver abajo la respuesta defectuosa). La razón por la cual es defectuoso es que el margen de error (MOE) que se informa se aplica al porcentaje de votación de un candidato pero no a la diferencia de los porcentajes. Mi segundo intento aborda explícitamente la pregunta planteada por el OP un poco mejor.
Segundo intento
El amigo del OP razona de la siguiente manera:
El problema principal aquí es que el primer paso no es válido. La construcción de intervalos de confianza independientemente para los dos candidatos no es un paso válido porque los porcentajes de encuesta para los dos candidatos son variables aleatorias dependientes. En otras palabras, un votante que decide no votar por A puede potencialmente decidir votar por B en su lugar. Por lo tanto, la forma correcta de evaluar si la derivación es significativa o no es construir un intervalo de confianza para la diferencia. Vea la wiki sobre cómo calcular el error estándar para la diferencia de porcentajes de sondeo bajo algunos supuestos.
Respuesta defectuosa a continuación
En mi opinión, la forma "correcta" de pensar en el resultado de la encuesta es la siguiente:
Si crees que 'A lidera a B' o 'A ata a B' depende de la medida en que estés dispuesto a aceptar el 5% como criterio de corte.
fuente
Es más fácil de explicar en términos de desviaciones estándar, en lugar de intervalos de confianza.
La conclusión de su amigo es básicamente correcta según el modelo más simple donde tiene un muestreo aleatorio simple y dos candidatos. Ahora las proporciones de la muestra satisfacen modo que . Por lo tanto, y entonces Lo que hace posible esta simple relación es que y están perfectamente correlacionadas negativamente, porque en generalpagUN+ psi= 1 pagsi= 1 - pUN
Fuera de este modelo simple , si no se cumple en general, entonces debe tener en cuenta la correlación entre y que no está incluida en el margen de error. Es posible para .p A p B S D ( p A - p B ) ≪ 2 S D ( p A )pagUN+ psi= 1 pagUN pB SD(pA−pB)≪2SD(pA)
Pero todo este matiz parece indicar que las organizaciones de votación deberían informar el margen de error en la diferencia. ¿Dónde está Nate Silver?
fuente
No solo es una mala forma de denominar las cosas, sino que ni siquiera es un punto muerto estadístico.
No utiliza intervalos de confianza superpuestos de esa manera. Si realmente quería decir que el candidato A iba a ganar, el candidato A definitivamente está a la cabeza. El plomo es 8% MOE 6.4%. El intervalo de confianza de ese puntaje de resta no es el doble del intervalo de confianza de los puntajes individuales. Lo que está implícito al afirmar que la superposición de IC (± MOE) alrededor de cada estimación es un punto muerto. Suponiendo que N y varianza sean iguales, el MOE de la diferencia es sqrt (2) multiplicado por 4.5. Esto se debe a que encontrar la diferencia entre los valores solo duplicaría la varianza (SD al cuadrado). El intervalo de confianza se basa en un sqrt de la varianza, por lo tanto, combinarlos es el promedio (4.5) * sqrt (2). Dado que el MOE de su 8% de ventaja es aproximadamente 6.4%, entonces el candidato A está a la cabeza.
Por otro lado, los MOE son muy conservadores y se basan en el valor de elección del 50%. La fórmula es sqrt (0.25 / n) * 2. Existe una fórmula para calcular errores estándar de puntajes de diferencia que también podríamos usar. Aplicaríamos eso usando los valores encontrados en lugar del 50% de corte y eso todavía nos da una ventaja significativa para el Candidato A (7.5% MOE). Creo que, dado el comentario de los interrogadores, y la proximidad de ese límite al hipotético seleccionado, eso era probablemente lo que estaban buscando.
Cualquier introducción a los intervalos de confianza y al poder sería útil aquí. Incluso el artículo de Wikipedia sobre MOE se ve bastante bien.
fuente