Aquí hay un caso de ejemplo:
- Tengo una población de 10,000 artículos. Cada artículo tiene una identificación única.
- Escojo al azar 100 artículos y anoto los identificadores
- Puse los 100 artículos nuevamente en la población
- Elijo aleatoriamente 100 artículos nuevamente, anoto los identificadores y los reemplazo.
- En total, repito este muestreo aleatorio 5 veces
¿Cuál es la probabilidad de que aparezca número de elementos en los 5 muestreos aleatorios?
No estoy muy versado en estadísticas. ¿Sería esto correcto para ?
- Para cada muestreo, el número de combinaciones posibles de 100 elementos de 10,000 es
- Fuera de todas las combinaciones posibles de 100 elementos, combinaciones contienen 10 elementos específicos
- La probabilidad de tener 10 elementos específicos es
- La probabilidad calculada para la potencia de 5 representaría 5 muestreos independientes.
¿Entonces esencialmente estamos calculando 5 probabilidades hipergeométricas independientes y luego multiplicándolas juntas? Siento que me falta un paso en alguna parte.
probability
hypergeometric
daemonk
fuente
fuente
Respuestas:
Calcule las posibilidades recursivamente.
Sea la probabilidad de que exactamente x valores, 0 ≤ x ≤ k , se seleccionen en todos los sorteos independientes s ≥ 1 de k ítems (sin reemplazo) de una población de n ≥ k > 0 miembros. (Mantengamos n y k fijos durante la duración del análisis para que no tengan que mencionarse explícitamente).ps(x) x 0≤x≤k s≥1 k n≥k>0 n k
Sea la probabilidad de que si se seleccionan exactamente los valores y en los primeros sorteos s - 1 , entonces x ≤ y de ellos se seleccionen en el último sorteo. Entonces porque hay ( yps(x∣y) y s−1 x≤y subconjuntos deelementosxde esoselementosy, y ( n-y(yx) x y subconjuntos de loselementosk-xrestantesse seleccionan por separado de los otrosn-ymiembros de la población,(n−yk−x) k−x n−y
La ley de probabilidad total afirma
Para , es una certeza que x = k : esta es la distribución inicial.s = 1 x = k
El cálculo total necesario para obtener la distribución completa a través de repeticiones es O ( k 2 s ) . No solo es razonablemente rápido, el algoritmo es fácil. Un escollo que aguarda al programador incauto es que estas probabilidades pueden volverse extremadamente pequeñas y los cálculos de punto flotante de flujo inferior. La siguiente implementación evita esto al calcular los valores de log ( p s ( x ) ) en las columnas 1 , 2 , ... , s de una matriz.s O ( k2s ) Iniciar sesión( ps( x ) ) 1 , 2 , ... , s
R
La respuesta a la pregunta se obtiene dejando que n = 10 000 = 10 4 , y k = 100 = 10 2 .s = 5 , n = 10000 = 104 4 k = 100 = 102 La salida es una matriz de , pero la mayoría de los números son tan pequeños que podemos centrarnos en x muy pequeños . Aquí están las primeras cuatro filas correspondientes a x = 0 , 1 , 2 , 3 :101 × 5 X x = 0 , 1 , 2 , 3
La salida es
Los valores de etiquetan las filas mientras que los valores de s etiquetan las columnas. La columna 5 muestra la posibilidad de que un elemento aparezca en las cinco muestras es minúscula (aproximadamente uno en un millón) y esencialmente no hay posibilidad de que aparezcan dos o más elementos en las cinco muestras.X s
Si desea ver cuán pequeñas son estas posibilidades, mire sus logaritmos. Base 10 es conveniente y no necesitamos muchos dígitos:
La salida nos dice cuántos ceros hay después del punto decimal:
Los números en la fila superior son valores de . Por ejemplo, la posibilidad de que aparezcan exactamente tres valores en las cinco muestras se encuentra mediante la computación , dando 0.000X 0,0000000000000000001434419 ... 18 años 967,0 967,26 (que cuenta las posibilidades de que la primera muestra vuelva a aparecer en las siguientes cuatro muestras) es igual a10-967.26.( 10000100)- 4 10- 967,26.
exp(u[4])
y de hecho esto tiene 18 ceros antes del primer dígito significativo. Como verificación, el último valor 967.0 es una versión redondeada de 967.26 . ( 10000fuente
Me encontré con un problema similar y, aunque tampoco sé si esta es la solución correcta, lo abordé así:
Usted está interesado en la aparición de ítems en 5 muestras á 100 ítems de 10 , 000 ítems en total. Se podría pensar en una urna con X bolas blancas y 10 , 000 - X bolas negras. Se sacan 100 bolas y p h es la probabilidad de que tengas todas las X bolas blancas en tu set. Si haces esto 5 veces (independientemente), lo multiplicaría: p = p h 5 .X 100 10 , 000 X 10 , 000 - X 100 pagh X 5 5 p = ph5 5
fuente
fuente