¿Es posible calcular o aproximar la probabilidad de que algo extremadamente improbable ocurra una vez en una muestra grande, es decir, en situaciones donde la probabilidad es menor que el error de la máquina?
Por ejemplo, estaba tratando de calcular la probabilidad aproximada de que alguien comparta mi genoma. Aparentemente, un genoma individual se puede comprimir sin pérdidas a aproximadamente 4 MB (2 ^ 25 bits). Entonces, la posibilidad de que uno de los ~ 7 mil millones de humanos en el planeta comparta mi genoma es sobre:
.
O usando el método del problema de cumpleaños , la probabilidad de que haya al menos dos personas con genomas idénticos (ignoremos a los gemelos y demás) es algo así como:
El problema aquí es que los números son tan pequeños o tan grandes que es imposible adivinar aproximadamente dónde se encontrarían. Entonces, ¿hay alguna forma de aproximar estos o similares cálculos?
Me doy cuenta de que, en algunos casos, las suposiciones detrás de los problemas pueden estar sujetas a múltiples órdenes de magnitud, pero incluso ser capaz de aproximarse a "más probable que no" sería interesante.
fuente
Respuestas:
En física, un problema de Fermi es un ejercicio que le pide que calcule un orden de magnitud. Puedes hacer lo mismo para las probabilidades. Con práctica, tu intuición debería mejorar.
Como comentó Xi'an, puedes usar logaritmos. Quizás no pueda ver de un vistazo, pero puede ver que (o ), lo que lo implica2225≫1010 225≫ 10 10Iniciar sesión210 ≈ 33
En lugar de usar fórmulas complicadas para calcular valores exactos que no necesita, use estimaciones que sean fáciles de calcular. Por ejemplo, la probabilidad de que haya al menos otra persona con su genoma (ignorando gemelos) es como máximo el número esperado de personas con el mismo genoma, un producto simple que deberías poder estimar como muy pequeño. Del mismo modo, la probabilidad de que algunos pares de personas tengan el mismo genoma es como máximo el número esperado de pares de personas con el mismo genoma, aproximadamente12225( 7 ×109 9)
Por cierto, no acepto este modelo de probabilidad para el genoma. Acabo de usar su modelo como ejemplos. Este modelo predeciría que la similitud genética típicamente encontrada entre hermanos es astronómicamente improbable.
fuente
Creo que esto equivale a un problema de estimar las colas extremas de una distribución de probabilidad sin el tamaño de muestra extremadamente grande necesario para obtener alguno o solo un pequeño número de valores observados en esos valores extremos. La única forma de hacerlo es asumiendo un modelo paramétrico que "automáticamente" asume una forma para las colas de distribución. Pero si tiene justificación para el modelo de probabilidad, entonces puede obtener las estimaciones que busca ajustando la densidad de la familia paramétrica y usándola para integrarse sobre el área de la cola para estimar esa pequeña probabilidad. Si la suposición paramétrica es incorrecta, la estimación podría estar muy alejada (por órdenes de magnitud).
fuente