Estoy interesado en comprender la diferencia entre la "probabilidad" de un evento aleatorio con una probabilidad particular de que ocurra la probabilidad exacta de que se diga que es probable. es decir, si un evento tiene una probabilidad de 1 en 10000, ¿cuál es la probabilidad de que en 10000 ensayos ocurra exactamente 1 vez, no 2 veces, no 0 veces, no 3 veces, etc. y cómo se expresa (y explica) la desviación?
Si un evento tiene una probabilidad de 1: 10,000, por lo tanto, en 100,000 ensayos es probable que ocurra 10 veces; en 1,000,000 de ensayos, es probable que ocurra 100 veces, pero no sería tan probable que ocurra en cualquier conjunto de 1,000,000 de ensayos cualquier número de veces, por ejemplo: 98 veces, 99 veces, 101 veces, 96 veces, 102 veces, etc.
Hablando estadísticamente, ¿cuántos ensayos deben promediarse y contabilizarse para acercarse a una certeza estadística de que un resultado particular es en realidad 1: 10000, y no 1: 9999 o 1: 10001 o 1: 10000.5, etc.?
fuente
Respuestas:
Editar: como Mark L Stone señala con razón, he tomado su pregunta porque implica que los juicios son independientes sin establecer que es el caso. Esta es una suposición crítica (y puede no ser razonable en muchas situaciones). Sin embargo, continuaré respondiendo sobre esa base, porque sigo pensando que fue su intención.
Lo mismo es cierto paran ensayos y una probabilidad de 1/n , para cualquier suficientemente grande n .
Las probabilidades (para cualquier grann ) se parece mucho a esto (mostrando el caso para n = 10000):
No del todo: 99 y 100 tienen la misma posibilidad, pero todo lo demás tiene menos posibilidades:
(la probabilidad continúa disminuyendo a medida que te alejas).
Específicamente, se trata de una distribución binomial conn=1000000 y p=1/10000 .
Ya quen es grande y p es pequeño, está bien aproximado por una distribución de Poisson con mediaλ=np=100 .
No puede estar seguro de que en realidad es 1/10000, ya que puede estar arbitrariamente cerca de él, pero diferente de él.
Ennorte ensayos, el número esperado de éxitos es n p con sd n p ( 1 - p )--------√≈n p--√ .
Sip = 1 / 10,000 y n =1012 , entonces el número esperado de éxitos es 108 con sd 104 4 ; Sip = 1 / 9.999 mil el número esperado de éxitos sería 100 , 010 , 000 ... a una desviación estándar de distancia, no es suficiente para distinguirlos "de manera confiable". Pero conn = 4 ×1012 estás a punto 2 sd está lejos, y puedes distinguirlos más fácilmente; eso es probablemente tan bajo como la mayoría de la gente quisiera ir. An =1013 podría distinguirlos bastante bien (las posibilidades de que 1/10000 parezca 1/9999 o 1/10001 o algo más alejado por casualidad son bastante pequeñas en ese momento).
Digamos que fuiste feliz con1013 ensayos para distinguir p = 1 / 10,000 desde 1 / 9999 . Si quisiera descartar 1 / 9999.5 con la misma confianza que tenía para descartar 1/9999, necesitaría 4 veces más pruebas.
Puede ver que se fijan proporciones a muchas cifras de precisión (cuandopags es muy pequeño) requiere muchas pruebas; necesita un tamaño de muestra varias veces más que( 1 / p)3 para obtener la estimación lo suficientemente precisa como para descartar p = 1 / ( k ± 1 ) cuando es realmente 1 / k .
Sí, se podría preguntar en 10000 ensayos o 1000 o 100.
Simplifiquemos las cosas y tomemos 10000 pruebas y 98 éxitos. Por supuesto, se podría tomar como una estimación puntual de la probabilidad de un éxito 98/10000 = 0.0098, pero esta no será realmente la proporción subyacente, solo una estimación de la misma. Bien podría ser 0.944 ... o 0.997 ... o cualquier número de otros valores.
Entonces, una cosa que la gente hace es construir un intervalo de valores que sería (en cierto sentido) razonablemente consistente con la proporción observada. Hay dos filosofías principales de estadísticas (estadísticas bayesianas y frecuentistas) que en grandes muestras generalmente tienden a generar intervalos similares pero que tienen interpretaciones bastante diferentes.
El más común sería un intervalo de confianza (frecuente) ; un intervalo para el parámetro (pags ) que se esperaría (en muchas repeticiones del mismo experimento) incluir el parámetro en una proporción dada del tiempo.
Un intervalo bayesiano típico comenzaría con una distribución previa en el parámetro que representa su incertidumbre sobre su valor, y usaría los datos para actualizar ese conocimiento a una distribución posterior y obtener un intervalo creíble .
Los intervalos de confianza son muy utilizados (aunque un intervalo creíble puede acercarse a sus expectativas sobre lo que debe hacer un intervalo). En el caso del intervalo de confianza de proporción binomial , como aquí, hay una variedad de enfoques, aunque en muestras grandes todos te dan más o menos el mismo intervalo.
Correcto; esperaría (con dados justos) obtener entre 999.94 millones y 1000.06 millones de éxito casi (pero no del todo) cada vez que lo intente.
Casi siempre seguirá siendo coherente con él (y con un rango de otros valores cercanos). Lo que sucede no es que puedas decir que es 1/10000, sino que el intervalo de valores de probabilidad consistentes con tus resultados se reducirá a medida que crezca el tamaño de la muestra.
fuente
Llegué a esta pregunta en función de su título, mientras esperaba encontrar la probabilidad de un evento conp =1norte sucediendo al menos una vez ennorte iteraciones Sé que su pregunta fue exactamente una vez, pero supongo que de alguna manera está relacionada.
Parece paranorte suficientemente grande, esta probabilidad tiende a 1 / e ≃ 0,632 y es (bastante sorprendente) casi independiente de norte .
Explicación:
Supongamos que lanzo un dado 6 veces. La probabilidad de obtener
1
al menos una vez de esos 6 intentos es:Del mismo modo, suponga que un evento tiene una probabilidad de
1/10000
. La probabilidad de que este evento ocurra al menos una vez fuera de los10000
intentos es:Podemos extrapolar esto para cualquiera
n
y obtener:Al trazar esta ecuación en Grapher , obtenemos algo como esto:
Conclusión: aunque tiene mucho sentido, en realidad me sorprendió bastante el hecho de que la probabilidad de que un evento tengap =1norte sucediendo al menos una vez fuera de norte intenta es casi independiente de norte , para norte tan poco como 3 ya.
fuente
Dejemos establecer un problema más simple en dados. Vamos a calcular la
probabilidad deprobabilidad de que en 6 tiros de dados, el puntaje sea 1 exactamente una vez.¿De cuántas maneras puede suceder esto [y sus respectivas probabilidades]:
así que la probabilidad total de que 1 se anote solo una vez en 6 lanzamientos es (3125/46656) * 6 = 3125/7776
Puede extender el mismo desarrollo para eventos con probabilidad 1 / n. La probabilidad de que ocurra un evento solo una vez en n ensayos sería
Esto puede parecer un poco familiar cuando lo reorganizo:
Otra parte de su pregunta: reducir la desviación a medida que aumenta el número de muestras, ya está bien explicada en otra respuesta.
fuente