Probabilidad de 10000: 1 probabilidad de ocurrir exactamente una vez en 10,000 intentos

Estoy interesado en comprender la diferencia entre la "probabilidad" de un evento aleatorio con una probabilidad particular de que ocurra la probabilidad exacta de que se diga que es probable. es decir, si un evento tiene una probabilidad de 1 en 10000, ¿cuál es la probabilidad de que en 10000 ensayos ocurra exactamente 1 vez, no 2 veces, no 0 veces, no 3 veces, etc. y cómo se expresa (y explica) la desviación?

Si un evento tiene una probabilidad de 1: 10,000, por lo tanto, en 100,000 ensayos es probable que ocurra 10 veces; en 1,000,000 de ensayos, es probable que ocurra 100 veces, pero no sería tan probable que ocurra en cualquier conjunto de 1,000,000 de ensayos cualquier número de veces, por ejemplo: 98 veces, 99 veces, 101 veces, 96 veces, 102 veces, etc.

Hablando estadísticamente, ¿cuántos ensayos deben promediarse y contabilizarse para acercarse a una certeza estadística de que un resultado particular es en realidad 1: 10000, y no 1: 9999 o 1: 10001 o 1: 10000.5, etc.?

probability likelihood RobH
fuente

1) ¿Qué quiere decir con "certeza estadística"? 2) "Probabilidad" tiene un significado técnico particular en las estadísticas que dudo que pretenda. Si te refieres a probabilidad , usa esa palabra en su lugar.

Glen_b -Reinstale a Monica el

Exactamente ... No estoy seguro del significado técnico exacto de los dos términos "probabilidad" y "probabilidad" ... lo que quiero decir, supongo, es que la probabilidad es 1: 10000 (o lo que sea la probabilidad) pero si dibujo al azar algo que tiene esa probabilidad, eso no necesariamente significa que se hará realidad exactamente 1 de cada 10000 veces, ¿verdad? Y en cuanto a la "certeza estadística" ... ¿cuántos ensayos necesitaría para determinar la probabilidad real de algo si los datos empíricos muestran que algo que se cree que es 1: 10000 es en realidad 1: 9999 o 1: 10001, etc.

RobH

Gracias por sus respuestas. Supongo que lo que me pregunto es si el tamaño de la muestra será mayor, es decir, 10,000,000 intentos, 100,000,000 intentos, etc., dará como resultado un resultado más cercano al esperado de 1 por 10,000, o siempre habrá una probabilidad de desviación similar ....

RobH

Sí, se acerca a 1 de cada 10000 cada vez más de cerca; A medida que aumenta el número de ensayos (supongo que está más allá de 10000 y aumenta), la proporción de la muestra se concentra más en torno a la proporción real (de la población). La desviación estándar de la distribución de la proporción de la muestra (su error estándar ) disminuye en proporción a

\frac{1}{\sqrt{n}}

$\frac{1}{\sqrt{n}}$ . De hecho para grandes

n

$n$ (de nuevo, sustancialmente más de 10000) tendrá aproximadamente el 95% de la probabilidad dentro de

p \pm \frac{1}{\sqrt{n}}

$p\pm\frac{1}{\sqrt{n}}$

Glen_b -Reinstate a Monica el

Gracias por las respuestas ... ahora a riesgo de confundir el punto, permítanme pedir un seguimiento ... digamos que después de 10,000,000,000 de pruebas el resultado se produjo 999,982 veces, ¿podría indicar la probabilidad de que la próxima prueba sea 1: 9999.82 o 1: 10000 o algún resultado calculado que involucre la desviación? .. (¡O supongo que lo mismo podría preguntarse después de solo 1 conjunto de 10,000 pruebas con mucha menos precisión!)

RobH

Respuestas:

una probabilidad de 1 en 10000, ¿cuál es la ~~probabilidad de~~ probabilidad de que en 10000 ensayos ocurra exactamente 1 vez?

$1/e\approx 0.3679$ , tan cerca como no tiene posibilidades. (La probabilidad de que ocurra exactamente 0 veces es casi exactamente la misma).

Editar: como Mark L Stone señala con razón, he tomado su pregunta porque implica que los juicios son independientes sin establecer que es el caso. Esta es una suposición crítica (y puede no ser razonable en muchas situaciones). Sin embargo, continuaré respondiendo sobre esa base, porque sigo pensando que fue su intención.

Lo mismo es cierto para $n$ ensayos y una probabilidad de $1/n$ , para cualquier suficientemente grande $n$ .

Las probabilidades (para cualquier gran $n$ ) se parece mucho a esto (mostrando el caso para $n$ = 10000):

ingrese la descripción de la imagen aquí

Si un evento tiene una probabilidad de 1: 10,000, por lo tanto, en 100,000 ensayos es probable que ocurra 10 veces; en 1,000,000 de ensayos, es probable que ocurra 100 veces, pero no sería tan probable que ocurra en cualquier conjunto de 1,000,000 de ensayos cualquier número de veces, por ejemplo: 98 veces, 99 veces, 101 veces, 96 veces, 102 veces, etc.

No del todo: 99 y 100 tienen la misma posibilidad, pero todo lo demás tiene menos posibilidades:

ingrese la descripción de la imagen aquí

(la probabilidad continúa disminuyendo a medida que te alejas).

Específicamente, se trata de una distribución binomial con $n=1000000$ y $p=1/10000$ .

Ya que $n$ es grande y $p$ es pequeño, está bien aproximado por una distribución de Poisson con media $\lambda=np=100$ .

cuántos ensayos deben promediarse y contabilizarse para acercarse a una certeza estadística de que un resultado particular es en realidad 1: 10000, y no 1: 9999 o 1: 10001

No puede estar seguro de que en realidad es 1/10000, ya que puede estar arbitrariamente cerca de él, pero diferente de él.

En $n$ ensayos, el número esperado de éxitos es $np$ con sd $\sqrt{np(1-p)}\approx \sqrt{np}$ .

Si $p=1/10000$ y $n=10^{12}$ , entonces el número esperado de éxitos es $10^{8}$ con sd $10^{4}$ ; Si $p=1/9999$ el número esperado de éxitos sería $100,010,000$ ... a una desviación estándar de distancia, no es suficiente para distinguirlos "de manera confiable". Pero con $n=4\times 10^{12}$ estás a punto $2$ sd está lejos, y puedes distinguirlos más fácilmente; eso es probablemente tan bajo como la mayoría de la gente quisiera ir. A $n=10^{13}$ podría distinguirlos bastante bien (las posibilidades de que 1/10000 parezca 1/9999 o 1/10001 o algo más alejado por casualidad son bastante pequeñas en ese momento).

Digamos que fuiste feliz con $10^{13}$ ensayos para distinguir $p=1/10000$ desde $1/9999$ . Si quisiera descartar 1 / 9999.5 con la misma confianza que tenía para descartar 1/9999, necesitaría 4 veces más pruebas.

Puede ver que se fijan proporciones a muchas cifras de precisión (cuando $p$ es muy pequeño) requiere muchas pruebas; necesita un tamaño de muestra varias veces más que $(1/p)^3$ para obtener la estimación lo suficientemente precisa como para descartar $p=1/(k\pm 1)$ cuando es realmente $1/k$ .

digamos que después de 10,000,000,000 de pruebas el resultado ocurrió 999,982 veces, ¿declararía entonces que la probabilidad de que la próxima prueba sea 1: 9999.82 o 1: 10000 o algún resultado calculado que involucre la desviación? .. (¡O supongo que lo mismo podría preguntarse después de solo 1 conjunto de 10,000 ensayos con mucha menos precisión!)

Sí, se podría preguntar en 10000 ensayos o 1000 o 100.

Simplifiquemos las cosas y tomemos 10000 pruebas y 98 éxitos. Por supuesto, se podría tomar como una estimación puntual de la probabilidad de un éxito 98/10000 = 0.0098, pero esta no será realmente la proporción subyacente, solo una estimación de la misma. Bien podría ser 0.944 ... o 0.997 ... o cualquier número de otros valores.

Entonces, una cosa que la gente hace es construir un intervalo de valores que sería (en cierto sentido) razonablemente consistente con la proporción observada. Hay dos filosofías principales de estadísticas (estadísticas bayesianas y frecuentistas) que en grandes muestras generalmente tienden a generar intervalos similares pero que tienen interpretaciones bastante diferentes.

El más común sería un intervalo de confianza (frecuente) ; un intervalo para el parámetro ( $p$ ) que se esperaría (en muchas repeticiones del mismo experimento) incluir el parámetro en una proporción dada del tiempo.

Un intervalo bayesiano típico comenzaría con una distribución previa en el parámetro que representa su incertidumbre sobre su valor, y usaría los datos para actualizar ese conocimiento a una distribución posterior y obtener un intervalo creíble .

Los intervalos de confianza son muy utilizados (aunque un intervalo creíble puede acercarse a sus expectativas sobre lo que debe hacer un intervalo). En el caso del intervalo de confianza de proporción binomial , como aquí, hay una variedad de enfoques, aunque en muestras grandes todos te dan más o menos el mismo intervalo.

con dados, incluso 6 x 10 ^ 9 pruebas pueden no dar exactamente 1 x 10 ^ 9 para cada uno de los seis resultados

Correcto; esperaría (con dados justos) obtener entre 999.94 millones y 1000.06 millones de éxito casi (pero no del todo) cada vez que lo intente.

Si la probabilidad real es 1: 10000, entonces aumentar las pruebas dentro de la desviación esperada tenderá a confirmar que

Casi siempre seguirá siendo coherente con él (y con un rango de otros valores cercanos). Lo que sucede no es que puedas decir que es 1/10000, sino que el intervalo de valores de probabilidad consistentes con tus resultados se reducirá a medida que crezca el tamaño de la muestra.

Glen_b -Reinstate a Monica
fuente

Glen_b, estás asumiendo que cada intento es independiente. Eso puede ser lo que pretendía el OP, pero la falta de sofisticación en la probabilidad del OP me sugiere que el OP está asumiendo implícitamente la independencia, como tal vez siempre aplicable a la probabilidad. Considere una variable aleatoria para la cual habrá 10000 intentos, de modo que con probabilidad 9999/10000 el evento ocurra en cero intentos y con probabilidad 1/10000 el evento ocurra en todos los 10000 intentos. El evento tiene una probabilidad de 1 en 10000 de ocurrir, y la probabilidad de que ocurra exactamente una vez en 100000 intentos es cero.

Mark L. Stone

Gracias @ MarkL.Stone: estás en lo correcto, tomé la pregunta como implicando independencia, pero debería haber sido completamente explícito al respecto. Agregaré una oración para aclarar mi respuesta.

Glen_b -Reinstalar Monica

Asumiré la diferencia en si cada intento es independiente de esta manera: si tuviera un contenedor de 10,000 canicas, 1 rojo y 9,999 negro, la probabilidad de seleccionar la canica roja en la primera prueba sería 1: 10000 ... si Dibujo una canica negra, luego la probabilidad de rojo en la próxima prueba sería 1: 9999, y continuaré hasta que dibuje la canica roja, después de lo cual la probabilidad sería 0. Un ejemplo de un intento independiente significaría que cada canica sería ser tomado de un nuevo contenedor de 9999 canicas negras y 1 canica roja, ¿correcto? Sí, eso es lo que pretendía describir.

RobH

Llegué a esta pregunta en función de su título, mientras esperaba encontrar la probabilidad de un evento con $p = \frac{1}{n}$ sucediendo al menos una vez en $n$ iteraciones Sé que su pregunta fue exactamente una vez, pero supongo que de alguna manera está relacionada.

Parece para $n$ suficientemente grande, esta probabilidad tiende a $1 / e ≃ 0.632$ y es (bastante sorprendente) casi independiente de $n$ .

Explicación:

Supongamos que lanzo un dado 6 veces. La probabilidad de obtener 1al menos una vez de esos 6 intentos es:

Probabilidad de no obtener '1' por cada intento:

$p = \frac{5}{6}$

Probabilidad de no obtener ningún '1' en 6 intentos:

$p = \frac{5}{6}^{6}$

Probabilidad de obtener '1' al menos una vez en 6 intentos:

$p = 1 - \frac{5}{6}^{6} \approx 0.665$

Del mismo modo, suponga que un evento tiene una probabilidad de 1/10000. La probabilidad de que este evento ocurra al menos una vez fuera de los 10000intentos es:

$p = 1 - \frac{9999}{10000}^{10000} \approx 0.634$

Podemos extrapolar esto para cualquiera ny obtener:

Probabilidad de evento con $p = \frac{1}{n}$ ocurriendo al menos una vez fuera de $n$ intentos:

$p = 1 - (\frac{n-1}{n})^{n}$

Y desde:

$\lim\limits_{n \rightarrow +\infty} \frac{n-1}{n}^{n} = \lim\limits_{n \rightarrow +\infty} (1 - \frac{1}{n})^{n} = \frac{1}{e} \approx 0.368$

Podemos decir eso:

$\lim\limits_{n \rightarrow +\infty} 1 - \frac{n-1}{n}^{n} \approx 0.632$

Al trazar esta ecuación en Grapher , obtenemos algo como esto:

Conclusión: aunque tiene mucho sentido, en realidad me sorprendió bastante el hecho de que la probabilidad de que un evento tenga $p = \frac{1}{n}$ sucediendo al menos una vez fuera de $n$ intenta es casi independiente de $n$ , para $n$ tan poco como $3$ ya.

Jivan
fuente

Dejemos establecer un problema más simple en dados. Vamos a calcular la ~~probabilidad de~~ probabilidad de que en 6 tiros de dados, el puntaje sea 1 exactamente una vez.

¿De cuántas maneras puede suceder esto [y sus respectivas probabilidades]:

1 is scored in first throw but not in any other throws[1/6*5/6*5/6*...] [=3125/46656]
1 is scored in second throw but not in any other throw [5/6*1/6*5/6*...] [=3125/46656]
...
...

así que la probabilidad total de que 1 se anote solo una vez en 6 lanzamientos es (3125/46656) * 6 = 3125/7776

Puede extender el mismo desarrollo para eventos con probabilidad 1 / n. La probabilidad de que ocurra un evento solo una vez en n ensayos sería

((n-1)/n)^(n-1)

Esto puede parecer un poco familiar cuando lo reorganizo:

(1-1/n)^(n-1)

Otra parte de su pregunta: reducir la desviación a medida que aumenta el número de muestras, ya está bien explicada en otra respuesta.

GPS
fuente

Lamentablemente, las respuestas resaltadas son incorrectas.

Dilip Sarwate