Si selecciono a 232 personas de un grupo de 363 personas sin reemplazo, ¿cuál es la probabilidad de que 2 de una lista de 12 personas específicas estén en esa selección?
Este es un sorteo aleatorio para una carrera ultra donde había 363 participantes para 232 puestos. Existe un argumento acerca de si la selección estaba sesgada contra un determinado grupo de 12 personas.
Mi intento inicial de calcular esto fue que había 232 elegir 363 selecciones posibles. El número de combinaciones de cualquier persona de la lista de doce es 1 elegir 12 + 2 elegir 12 + ... + 11 elegir 12 + 12 elegir 12. Por lo tanto, 1 elegir 12 + 2 elegir 12 .... / 232 elegir 363 Lo que termina siendo un número muy bajo que es claramente demasiado bajo.
¿Cómo calculo esto?
combinatorics
randomness
hypergeometric
Sargento
fuente
fuente
Respuestas:
Interpreto la pregunta de esta manera: supongamos que el muestreo se realizó supuestamente como si boletos de papel blanco se pusieran en un frasco, cada uno etiquetado con el nombre de una persona, y se sacaran al azar después de agitar completamente el contenido del frasco. De antemano, de los boletos eran de color rojo. ¿Cuál es la posibilidad de que exactamente dos de los boletos seleccionados sean rojos? ¿Cuál es la posibilidad de que, como máximo, dos de los boletos sean rojos?232 12363 232 12
Se puede obtener una fórmula exacta, pero no necesitamos hacer tanto trabajo teórico. En cambio, solo rastreamos las posibilidades a medida que los boletos se sacan del frasco. En el momento han sido retirados de ellos, dejar que la probabilidad de que exactamente billetes rojos se han visto escribirse . Para comenzar, tenga en cuenta que si (no puede tener boletos rojos antes de comenzar) y (es seguro que no tiene boletos rojos al principio). Ahora, en el sorteo más reciente, el boleto era rojo o no. En el primer caso, anteriormente teníamos la posibilidad de ver exactamentei p ( i , m ) p ( i , 0 ) = 0 i > 0 p ( 0 , 0 ) = 1 p ( i - 1 , m - 1 ) i - 1 363 - m + 1 i ( 12 - i + 1 ) / ( 363 - m + 1 )metro yo p ( i , m ) p ( i , 0 ) = 0 i > 0 p ( 0 , 0 ) = 1 p ( i - 1 , m - 1 ) i - 1 entradas rojas Luego pasamos a sacar uno rojo de los boletos restantes , haciéndolo exactamente boletos rojos hasta ahora. Debido a que asumimos que todos los boletos tienen las mismas oportunidades en cada etapa, nuestra posibilidad de sacar un rojo de esta manera fue . En el otro caso, tuvimos la oportunidad de obtener exactamente boletos rojos en los sorteos anteriores , y la posibilidad de no agregar otro boleto rojo a la muestra en el próximo sorteo fue363 - m + 1 yo ( 12 - i + 1 ) / ( 363 - m + 1 ) p ( i , m - 1 ) yo m - 1 ( 363 - m + 1 - 12 + i ) / ( 363 - m + 1 ) . Por lo tanto, usando axiomas básicos de probabilidad (es decir, las posibilidades de dos casos mutuamente excluyentes se suman y las oportunidades condicionales se multiplican),
Repetimos este cálculo de forma recursiva, presentando una matriz triangular de los valores de para y . Después de un pequeño cálculo obtenemos y , respondiendo ambas versiones de la pregunta. Estos son números pequeños: no importa cómo se mire, son eventos bastante raros (más raros que uno de cada mil).0 ≤ i ≤ 12 0 ≤ m ≤ 232 p ( 2 , 232 ) ≈ 0.000849884 p ( 0 , 232 ) + p ( 1 , 232 ) + p ( 2 , 232 ) ≈ 0.000934314p ( i , m ) 0 ≤ i ≤ 12 0 ≤ m ≤ 232 p ( 2 , 232 ) ≈ 0.000849884 p(0,232)+p(1,232)+p(2,232)≈0.000934314
Como doble verificación, realicé este ejercicio con una computadora 1,000,000 de veces. En 932 = 0.000932 de estos experimentos, se observaron 2 o menos tickets rojos. Esto es extremadamente cercano al resultado calculado, porque la fluctuación de muestreo en el valor esperado de 934.3 es de aproximadamente 30 (arriba o abajo). Así es como se realiza la simulación en R:
Esta vez, debido a que los experimentos son aleatorios, los resultados cambiaron un poco: se observaron dos o menos tickets rojos en 948 de los millones de ensayos. Eso todavía es consistente con el resultado teórico).
La conclusión es que es muy poco probable que dos o menos de los 232 boletos sean rojos. Si realmente tiene una muestra de 232 de 363 personas, este resultado es una fuerte indicación de que el modelo de tickets en un frasco no es una descripción correcta de cómo se obtuvo la muestra. Las explicaciones alternativas incluyen (a) los tickets rojos se hicieron más difíciles de tomar del frasco (un "sesgo" en contra de ellos) así como (b) los tickets se colorearon después de que se observó la muestra ( espionaje de datos post hoc , que sí no indica ningún sesgo).
Un ejemplo de explicación (b) en acción sería un grupo de jurado para un notorio juicio por asesinato. Supongamos que incluye 363 personas. Fuera de ese grupo, el tribunal entrevistó a 232 de ellos. Un reportero de un periódico ambiciosa revisa meticulosamente la vitae de cada uno en la piscina y las comunicaciones que 12 de los 363 eran criadores de peces de colores, pero sólo dos de ellos había sido entrevistado. ¿La corte es parcial contra los fanáticos de los peces dorados? Probablemente no.
fuente
sample
). En efecto, en cada iteraciónsample
mezcla a fondo los tickets cada vez que se llama antes de retirar 232 de ellos.@whuber dio una explicación exhaustiva, solo quiero señalar que hay una distribución estadística estándar correspondiente a este escenario: la distribución hipergeométrica . Para que pueda obtener tales probabilidades directamente en, digamos, R:
Probabilidad de exactamente 2 de 12 seleccionados:
Probabilidad de 2 o menos de 12 seleccionados:
fuente
Las probabilidades son mucho más altas que las calculadas con la distribución hipergeométrica simple, ya que el grupo no se elige al azar ( "12 peces están pintados de rojo antes del sorteo" ).
A partir de la descripción de la pregunta, estamos probando un fraude en el sorteo. Un grupo específico de 12 personas se quejó de que solo 2 de ellos fueron seleccionados, mientras que el número esperado era 232/363 ~ 2/3 = 8.
Lo que realmente necesitamos calcular es cuáles son las probabilidades de que " Ningún grupo de tamaño 12 tendrá solo 2 miembros seleccionados". Las probabilidades de que al menos un grupo tenga 2 o menos (por lo tanto, se quejarán de la imparcialidad del sorteo) son mucho más altas.
Cuando ejecuto esta simulación y compruebo cuántas de las pruebas ninguno de los 30 grupos (= 360/12) tenía 2 o menos selecciones, obtengo aproximadamente el 2.3% de las veces. 1:42 es bajo pero no imposible.
Aún debe verificar el procedimiento del sorteo, ya que puede estar sesgado en contra de un grupo específico de personas. Es posible que se hayan unido y recibido un rango del sorteo con menos probabilidad (el primer o el último número, por ejemplo), o cualquier variable dependiente del procedimiento del sorteo. Pero si no encuentra ningún defecto en el procedimiento, puede volver a las probabilidades de 1:42 de que es simplemente mala suerte para el grupo.
fuente