El argumento estadístico de por qué 10,000 cabezas de 20,000 lanzamientos sugiere datos no válidos

11

Digamos que estamos lanzando repetidamente una moneda justa, y sabemos que el número de caras y colas debería ser aproximadamente igual. Cuando vemos un resultado como 10 caras y 10 colas para un total de 20 lanzamientos, creemos los resultados y nos inclinamos a creer que la moneda es justa.

Bueno, cuando ves un resultado como 10000 caras y 10000 colas para un total de 20000 lanzamientos, realmente cuestionaría la validez del resultado (¿el experimentador falsificó los datos?), Ya que sé que esto es más improbable que, digamos, un resultado de 10093 cabezas y 9907 colas.

¿Cuál es el argumento estadístico detrás de mi intuición?

Haibao Tang
fuente

Respuestas:

21

Suponiendo una moneda justa, el resultado de 10000 caras y 10000 colas es en realidad más probable que un resultado de 10093 caras y 9907 colas.

Sin embargo, cuando dice que un experimentador real es poco probable que obtenga el mismo número de caras y colas, está invocando implícitamente el teorema de Bayes. Su creencia anterior sobre un experimento real es que Prob (No de cabezas = 10000 en lanzamientos de 20000 | Dado que el experimentador no está fingiendo) está cerca de 0. Por lo tanto, cuando ve un resultado real de que el 'No de cabezas = 10000' su posterior sobre Prob (el experimentador no está fingiendo | el resultado observado de 10000 cabezas) también está cerca de 0. Por lo tanto, concluye que el experimentador está fingiendo los datos.


fuente
Muy bien explicado! Qué maravilloso ejemplo para el enfoque del teorema de Bayes.
Tal Galili el
1
@Srikant: ese anterior no se puede definir formalmente. En cualquier caso, Prob (No de cabezas = X | el experimentador no está fingiendo) siempre está alrededor de cero cuando N = 20000, sin importar el valor de X y sin importar su anterior. Por lo tanto, su posterior para cualquier número también siempre está cerca de 0. No veo qué tiene que ver esto con el teorema de Bayes.
Joris Meys
Todo esto de un tipo que estaba escondido tratando de demostrar que Dios existía. Elegante, de verdad.
Brandon Bertelsen
1
Poniendo esto en una perspectiva más general, el punto, con el que estoy de acuerdo, es que el teorema de Bayes está funcionando aquí. Específicamente hay posibilidades alternativas (correspondientes a diferentes procesos generativos) para hacer trampa y para experimentadores honestos. Establecer el engaño es una inferencia posterior con respecto al proceso de engaño intuitivo y, por lo tanto, lamentablemente poco especificado.
conjugateprior
1
@Srikant @whuber: los combinatorios ... tienes razón. Partí de una probabilidad uniforme, que por supuesto no tiene sentido en este caso. My bad
Joris Meys
12

Me gusta la explicación de Srikant, y creo que la idea bayesiana es probablemente la mejor manera de abordar un problema como este. Pero aquí hay otra forma de verlo sin Bayes: (en R)

dbinom(10, size = 20, prob = 0.5)/dbinom(10000, 20000, 0.5)

que es aproximadamente 31.2 en mi sistema. En otras palabras, es más de 30 veces más probable ver 10 de 20 que ver 10,000 de 20,000, incluso con una moneda justa en ambos casos. Esta relación aumenta sin límite a medida que aumenta el tamaño de la muestra.

Este es un tipo de enfoque de razón de probabilidad, pero nuevamente, en mi opinión, esto se siente como un juicio bayesiano más que cualquier otra cosa.


fuente
¿Por qué la proporción? ¿Por qué no simplemente declarar que la probabilidad de ese sorteo exacto es extremadamente baja?
Andy W
55
La afirmación de que una probabilidad particular es baja fuera de contexto no es convincente. La probabilidad de que sea exactamente tan alto como mi altura (sea lo que sea) es cero. Y sí, es problemático incluso definir la altura con precisión infinita, yada, yada, yada ... ¡Mi punto es que la vorágine de la existencia se agita con eventos de probabilidad infinitesimal que ocurren todo el tiempo! 10,000 de 20,000, fuera de contexto, no me sorprenden en absoluto. Independientemente de cuál sea su probabilidad numérica.
9

Un argumento bayesiano subjetivista es prácticamente la única forma (desde un punto de vista estadístico) de entender su intuición , que es, propiamente hablando, el tema de una investigación psicológica , no estadística. Sin embargo, es evidentemente injusto, y por lo tanto inválido, usar un enfoque bayesiano para argumentar que un investigador falsificó los datos. La lógica de esto es perfectamente circular: todo se reduce a decir "en base a mis creencias previas sobre el resultado, considero que su resultado es increíble y, por lo tanto, debe haber hecho trampa". Un argumento tan ilógico y egoísta obviamente no se mantendría en una sala de audiencias o en un proceso de revisión por pares.

α= El nivel del 5% vería cualquier resultado entre 9,996 y 10,004 como sospechoso, porque (a) esta colección está cerca de nuestros resultados hipotéticos "falsificados" y (b) bajo la hipótesis nula de no falsificación (¡inocente hasta que se pruebe su culpabilidad en el tribunal!) , un resultado en este rango solo tiene una probabilidad del 5% (en realidad 5.07426%) de ocurrir. Además, podemos poner este enfoque aparentemente ad hoc en un contexto de chi-cuadrado (a la Fisher) simplemente cuadrando la desviación entre la proporción observada y la proporción esperada, luego invocando el lema de Neyman-Pearson en una prueba de una cola en el cola baja y aplicando la aproximación Normal a la distribución Binomial .

Aunque tal prueba no puede probar ser falsa, se puede aplicar a informes futuros de ese experimentador para evaluar la credibilidad de sus afirmaciones, sin hacer suposiciones desagradables e insoportables basadas solo en su intuición. ¡Esto es mucho más justo y riguroso que invocar un argumento bayesiano para implicar a alguien que podría ser perfectamente inocente y resultó ser tan desafortunado que obtuvieron un hermoso resultado experimental!

whuber
fuente
5

Creo que tu intuición es defectuosa. Parece que está comparando implícitamente un único resultado "muy especial" (exactamente 10000 cabezas) con un conjunto de muchos resultados (todos los números "no especiales" de cabezas cercanas a 10000). Sin embargo, la definición de "especial" es una elección arbitraria basada en nuestra psicología. ¿Qué tal binario 10000000000000 (decimal 8192) o Hex ABC (decimal 2748) - sería sospechosamente especial también? Como comentó Joris Meys, el argumento de Bayes sería esencialmente el mismo para cualquier número de cabezas, lo que implica que cada resultado sería sospechoso.

Para expandir un poco el argumento: desea probar una hipótesis ("el experimentador está fingiendo"), y luego elige una estadística de prueba (número de cabezas). Ahora, ¿esta estadística de prueba es adecuada para decirle algo sobre su hipótesis? Para mí, parece que el estadístico de prueba elegido no es informativo (no es una función de un parámetro especificado como un valor fijo en la hipótesis). Esto se remonta a la pregunta de qué quieres decir con "trampa". Si eso significa que el experimentador controla la moneda a voluntad, entonces esto no se refleja en la estadística de prueba. Creo que debe ser más preciso para encontrar un indicador cuantificable y, por lo tanto, hacer que la pregunta sea susceptible de una prueba estadística.

lince
fuente
+1, pero no estoy convencido. Lo especial de 10.000 es que es exactamente igual al número esperado de caras bajo la hipótesis de que la moneda es justa. Este hecho es independiente de cualquier psicología o sistema de representación numérica. El análisis en esta respuesta podría proporcionar una idea de una situación en la que, por ejemplo, se lanzaron 20,005 monedas y se observaron 10,000 caras (y, por lo tanto, 10,005 colas) y la "intuición" de alguien sugirió que se produjo una falsificación.
whuber
Estoy totalmente de acuerdo en que, como señala en su respuesta, todo depende de la definición a priori de la hipótesis: si define de antemano que al "fingir el experimento" quiere decir "lograr un resultado para el número de cabezas que es cerca del valor esperado ", entonces esa es una base para una prueba estadística con" número de cabezas "como estadística de prueba. Sin embargo, sin tal aclaración a priori, el significado de "falsificación" y "valor especial para el número de cabezas" permanece nublado, y no está claro qué tienen que ver entre sí.
caracal
4

La conclusión que extraiga dependerá MUY de lo anterior que elija para la probabilidad de hacer trampa y la probabilidad previa de que, dado que la aleta miente, se informan x cabezas.

Poner la mayor masa en P (10000 cabezas informadas | mentir) es un pequeño contador intuitivo en mi opinión. A menos que el periodista sea ingenuo, no puedo imaginar que alguien informe ese tipo de datos falsificados (en gran parte por las razones que mencionó en la publicación original; es demasiado sospechoso para la mayoría de las personas). datos falsificados, entonces creo que un previo más razonable (y muy aproximado) sobre los resultados informados podría ser un discreto uniforme anterior P (X cabezas informadas | mentir) = 1/201 para los enteros {9900, ..., 10100} y P (x cabezas informadas | mentir) = 0 para todas las demás x. Suponga que cree que la probabilidad previa de mentir es 0.5. Entonces algunas probabilidades posteriores son:

P (mentiroso | 9900 cabezas informadas) = ​​P (mentiroso | 10100 cabezas informadas) = ​​0,70;

P (mentira | 9950 cabezas informadas) = ​​P (mentira | 10050 cabezas informadas) = ​​0,54;

P (mentira | 10000 cabezas informadas) = ​​0.47.

Los números más razonables de caras informadas de una moneda justa generarán sospechas. Solo para mostrar cuán sensibles son las probabilidades posteriores a sus anteriores, si la probabilidad previa de hacer trampa se reduce a 0.10, entonces las probabilidades posteriores se convierten en:

P (mentiroso | 9900 cabezas reportadas) = ​​P (mentiroso | 10100 cabezas reportadas) = ​​0.21;

P (mentira | 9950 cabezas informadas) = ​​P (mentira | 10050 cabezas informadas) = ​​0,11;

P (mentira | 10000 cabezas informadas) = ​​0.09.

Así que creo que la respuesta original (y altamente calificada) podría ampliarse un poco; de ninguna manera debe concluir que los datos están falsificados sin considerar a fondo la información previa. Además, solo pensando en esto intuitivamente, parece que las probabilidades posteriores de mentir probablemente estén influenciadas más por la probabilidad previa de mentir que por la distribución previa de cabezas informadas dado que el flipper está mintiendo (excepto los anteriores que ponen todo su masa en un pequeño número de cabezas informó dado que la aleta está mintiendo, como en mi ejemplo).

Bestia peluda
fuente
Creo que esta es una muy buena respuesta, pero no estoy de acuerdo con su segundo párrafo. No creo que la probabilidad condicional original de Srikant sea contraintuitiva, y simplemente porque es una pregunta difícil de responder no es un argumento en contra. Tampoco creo que su probabilidad uniforme de estar entre 9900 y 10100 tenga sentido, aunque es útil para fines de demostración.
Andy W
2

Para la explicación bayesiana, necesita una distribución de probabilidad previa de los resultados informados por un lanzador de monedas mentiroso, así como una probabilidad previa de mentir. Cuando ve un valor que es mucho más probable bajo la distribución de mentira que el volteo aleatorio, eso hace que su probabilidad posterior de mentir sea mucho mayor.

Internet
fuente