¿Cómo calcular con probabilidades pequeñas y muestras grandes?

¿Es posible calcular o aproximar la probabilidad de que algo extremadamente improbable ocurra una vez en una muestra grande, es decir, en situaciones donde la probabilidad es menor que el error de la máquina?

Por ejemplo, estaba tratando de calcular la probabilidad aproximada de que alguien comparta mi genoma. Aparentemente, un genoma individual se puede comprimir sin pérdidas a aproximadamente 4 MB (2 ^ 25 bits). Entonces, la posibilidad de que uno de los ~ 7 mil millones de humanos en el planeta comparta mi genoma es sobre:

$(1-\frac{1}{2^{2^{25}}})^{(7\times10^9)}$ .

O usando el método del problema de cumpleaños , la probabilidad de que haya al menos dos personas con genomas idénticos (ignoremos a los gemelos y demás) es algo así como:

$\frac{(7\times10^9)!\cdot{{2^{2^{25}}} \choose 7\times10^9}}{({2^{2^{25}})}^{(7\times10^9)}}$

El problema aquí es que los números son tan pequeños o tan grandes que es imposible adivinar aproximadamente dónde se encontrarían. Entonces, ¿hay alguna forma de aproximar estos o similares cálculos?

Me doy cuenta de que, en algunos casos, las suposiciones detrás de los problemas pueden estar sujetas a múltiples órdenes de magnitud, pero incluso ser capaz de aproximarse a "más probable que no" sería interesante.

probability estimation nada101
fuente

Los logaritmos son apropiados en tales circunstancias y, si no es suficiente, la aproximación de Stirling lo acerca lo suficiente al valor real para evaluar la magnitud de la cantidad.

Xi'an

Respuestas:

En física, un problema de Fermi es un ejercicio que le pide que calcule un orden de magnitud. Puedes hacer lo mismo para las probabilidades. Con práctica, tu intuición debería mejorar.

Como comentó Xi'an, puedes usar logaritmos. Quizás no pueda ver de un vistazo, pero puede ver que (o ), lo que lo implica $2^{2^{25}} \gg 10^{10}$ $2^{25} \gg 10$ $10 \log_2 10 \approx 33$

En lugar de usar fórmulas complicadas para calcular valores exactos que no necesita, use estimaciones que sean fáciles de calcular. Por ejemplo, la probabilidad de que haya al menos otra persona con su genoma (ignorando gemelos) es como máximo el número esperado de personas con el mismo genoma, un producto simple que deberías poder estimar como muy pequeño. Del mismo modo, la probabilidad de que algunos pares de personas tengan el mismo genoma es como máximo el número esperado de pares de personas con el mismo genoma, aproximadamente $\frac {1}{2^{2^{25}}} (7 \times 10^9)$

\frac{\frac{1}{2} (7 7 \times 10^{9 9})^{2}}{2^{2^{25}}}

$\frac{\frac 12 (7 \times 10^9)^2}{2^{2^{25}}}$

Por cierto, no acepto este modelo de probabilidad para el genoma. Acabo de usar su modelo como ejemplos. Este modelo predeciría que la similitud genética típicamente encontrada entre hermanos es astronómicamente improbable.

Douglas Zare
fuente

Sí, sé que el modelo está equivocado. Pero hermanos no gemelos sólo es probable que comparten la mitad de sus genes (aparte de las comunes a todos los seres humanos), así que no estoy muy seguro de lo que entendemos por similitud genética entre hermanos ..

naught101

No estoy seguro de lo que quieres decir con "aproximadamente la mitad" ya que se supone que el genoma está comprimido. Hay lugares donde hay opciones, y lugares donde hay más de . De todos modos, los lugares donde no tienen una copia del cromosoma del mismo padre pueden ser iguales de todos modos por casualidad, por lo que más de la mitad de sus genes deberían ser iguales, y si finges que cada genoma es aleatorio, estimarás que la posibilidad de esto es astronómicamente baja. Además, suponga que no hay cruces. Entonces los hermanos solo necesitan ganar lanzamientos de monedas para tener los mismos genomas, no .

2

$2$

2

$2$

46

$46$

2^{25}

$2^{25}$

Douglas Zare

Cosas interesantes, pero todo esto es un poco tangencial a la pregunta, para lo cual mi modelo demasiado simplista fue solo un ejemplo básico. Si tienes ganas de continuar la discusión genética, podríamos hacerlo en la sala de chat ..

naught101

Todo esto es material básico. Simplemente no quería mostrar los cálculos dentro de este modelo sin señalar que el modelo es malo.

Douglas Zare

Creo que esto equivale a un problema de estimar las colas extremas de una distribución de probabilidad sin el tamaño de muestra extremadamente grande necesario para obtener alguno o solo un pequeño número de valores observados en esos valores extremos. La única forma de hacerlo es asumiendo un modelo paramétrico que "automáticamente" asume una forma para las colas de distribución. Pero si tiene justificación para el modelo de probabilidad, entonces puede obtener las estimaciones que busca ajustando la densidad de la familia paramétrica y usándola para integrarse sobre el área de la cola para estimar esa pequeña probabilidad. Si la suposición paramétrica es incorrecta, la estimación podría estar muy alejada (por órdenes de magnitud).

Michael R. Chernick
fuente

Bien, no lo había pensado de esa manera. Sin embargo, no tengo idea de qué tipo de modelo usaría para este tipo de problema.

naught101