¿Cuál es la probabilidad de que n personas de una lista de m personas estén en una selección aleatoria de x personas de una lista de y personas?

10

Si selecciono a 232 personas de un grupo de 363 personas sin reemplazo, ¿cuál es la probabilidad de que 2 de una lista de 12 personas específicas estén en esa selección?

Este es un sorteo aleatorio para una carrera ultra donde había 363 participantes para 232 puestos. Existe un argumento acerca de si la selección estaba sesgada contra un determinado grupo de 12 personas.

Mi intento inicial de calcular esto fue que había 232 elegir 363 selecciones posibles. El número de combinaciones de cualquier persona de la lista de doce es 1 elegir 12 + 2 elegir 12 + ... + 11 elegir 12 + 12 elegir 12. Por lo tanto, 1 elegir 12 + 2 elegir 12 .... / 232 elegir 363 Lo que termina siendo un número muy bajo que es claramente demasiado bajo.

¿Cómo calculo esto?

Sargento
fuente
1
Dos puntos técnicos. Primero, ahora se trata de una probabilidad en lugar de una probabilidad como se conoce el resultado. En segundo lugar, no importa cuál sea la probabilidad teórica, dado que tiene un resultado. Creo que sería mejor abordar el método utilizado para la selección: ¿cómo se eligieron las selecciones? Debe probar la exactitud del método, no la exactitud del resultado.
Michelle
1
Michelle vería esto como una probabilidad, Michelle, con el propósito de estimar las probabilidades de selección. Ese no parece ser el caso aquí.
whuber
Debe tener cuidado al usar el cálculo simple de la RV hipergeométrica, ya que las 12 personas que se quejan no son seleccionadas al azar. Ellos se quejan porque fueron no seleccionados.
Guy

Respuestas:

10

Interpreto la pregunta de esta manera: supongamos que el muestreo se realizó supuestamente como si boletos de papel blanco se pusieran en un frasco, cada uno etiquetado con el nombre de una persona, y se sacaran al azar después de agitar completamente el contenido del frasco. De antemano, de los boletos eran de color rojo. ¿Cuál es la posibilidad de que exactamente dos de los boletos seleccionados sean rojos? ¿Cuál es la posibilidad de que, como máximo, dos de los boletos sean rojos?232 1236323212

Se puede obtener una fórmula exacta, pero no necesitamos hacer tanto trabajo teórico. En cambio, solo rastreamos las posibilidades a medida que los boletos se sacan del frasco. En el momento han sido retirados de ellos, dejar que la probabilidad de que exactamente billetes rojos se han visto escribirse . Para comenzar, tenga en cuenta que si (no puede tener boletos rojos antes de comenzar) y (es seguro que no tiene boletos rojos al principio). Ahora, en el sorteo más reciente, el boleto era rojo o no. En el primer caso, anteriormente teníamos la posibilidad de ver exactamentei p ( i , m ) p ( i , 0 ) = 0 i > 0 p ( 0 , 0 ) = 1 p ( i - 1 , m - 1 ) i - 1 363 - m + 1 i ( 12 - i + 1 ) / ( 363 - m + 1 )mip(i,m)p(i,0)=0i>0p(0,0)=1p(i1,m1)i1entradas rojas Luego pasamos a sacar uno rojo de los boletos restantes , haciéndolo exactamente boletos rojos hasta ahora. Debido a que asumimos que todos los boletos tienen las mismas oportunidades en cada etapa, nuestra posibilidad de sacar un rojo de esta manera fue . En el otro caso, tuvimos la oportunidad de obtener exactamente boletos rojos en los sorteos anteriores , y la posibilidad de no agregar otro boleto rojo a la muestra en el próximo sorteo fue363m+1i(12i+1)/(363m+1)p(i,m1)im1(363m+112+i)/(363m+1). Por lo tanto, usando axiomas básicos de probabilidad (es decir, las posibilidades de dos casos mutuamente excluyentes se suman y las oportunidades condicionales se multiplican),

p(i,m)=p(i1,m1)(12i+1)+p(i,m1)(363m+112+i)363m+1.

Repetimos este cálculo de forma recursiva, presentando una matriz triangular de los valores de para y . Después de un pequeño cálculo obtenemos y , respondiendo ambas versiones de la pregunta. Estos son números pequeños: no importa cómo se mire, son eventos bastante raros (más raros que uno de cada mil).0 i 12 0 m 232 p ( 2 , 232 ) 0.000849884 p ( 0 , 232 ) + p ( 1 , 232 ) + p ( 2 , 232 ) 0.000934314p(i,m)0i120m232p(2,232)0.000849884p(0,232)+p(1,232)+p(2,232)0.000934314

Como doble verificación, realicé este ejercicio con una computadora 1,000,000 de veces. En 932 = 0.000932 de estos experimentos, se observaron 2 o menos tickets rojos. Esto es extremadamente cercano al resultado calculado, porque la fluctuación de muestreo en el valor esperado de 934.3 es de aproximadamente 30 (arriba o abajo). Así es como se realiza la simulación en R:

> population <- c(rep(1,12), rep(0, 363-12)) # 1 is a "red" indicator
> results <- replicate(10^6, 
             sum(sample(population, 232)))   # Count the reds in 10^6 trials
> sum(results <= 2)                          # How many trials had 2 or fewer reds?
[1] 948

Esta vez, debido a que los experimentos son aleatorios, los resultados cambiaron un poco: se observaron dos o menos tickets rojos en 948 de los millones de ensayos. Eso todavía es consistente con el resultado teórico).

La conclusión es que es muy poco probable que dos o menos de los 232 boletos sean rojos. Si realmente tiene una muestra de 232 de 363 personas, este resultado es una fuerte indicación de que el modelo de tickets en un frasco no es una descripción correcta de cómo se obtuvo la muestra. Las explicaciones alternativas incluyen (a) los tickets rojos se hicieron más difíciles de tomar del frasco (un "sesgo" en contra de ellos) así como (b) los tickets se colorearon después de que se observó la muestra ( espionaje de datos post hoc , que sí no indica ningún sesgo).

Un ejemplo de explicación (b) en acción sería un grupo de jurado para un notorio juicio por asesinato. Supongamos que incluye 363 personas. Fuera de ese grupo, el tribunal entrevistó a 232 de ellos. Un reportero de un periódico ambiciosa revisa meticulosamente la vitae de cada uno en la piscina y las comunicaciones que 12 de los 363 eran criadores de peces de colores, pero sólo dos de ellos había sido entrevistado. ¿La corte es parcial contra los fanáticos de los peces dorados? Probablemente no.

whuber
fuente
Nota: en la simulación, no importa que se marquen los primeros 12 "tickets", porque todo el muestreo se realiza de forma aleatoria sin reemplazo (vía sample). En efecto, en cada iteración samplemezcla a fondo los tickets cada vez que se llama antes de retirar 232 de ellos.
whuber
2
Dios mío, ese no era realmente el resultado que esperaba. Gracias por su minucioso trabajo y buena explicación. (Curiosamente, en realidad hice un entrenamiento de estadísticas en la Universidad de Auckland, donde se desarrolló R por primera vez)
Sarge
10

@whuber dio una explicación exhaustiva, solo quiero señalar que hay una distribución estadística estándar correspondiente a este escenario: la distribución hipergeométrica . Para que pueda obtener tales probabilidades directamente en, digamos, R:

Probabilidad de exactamente 2 de 12 seleccionados:

   > dhyper(2, 12, 363-12, 232)
   [1] 0.0008498838

Probabilidad de 2 o menos de 12 seleccionados:

   > phyper(2, 12, 363-12, 232)
   [1] 0.000934314
Aniko
fuente
+1 gracias. Debería haber mencionado esta conexión. La distribución hipergeométrica aparece clásicamente en los experimentos de muestreo y remuestreo. Las 12 personas específicas (mis "boletos rojos") son como peces que han sido capturados, marcados y arrojados a la piscina; la muestra de 232 es como el conjunto de peces que posteriormente se capturan. La distribución hipergeométrica describe las frecuencias de los peces recapturados.
whuber
0

Las probabilidades son mucho más altas que las calculadas con la distribución hipergeométrica simple, ya que el grupo no se elige al azar ( "12 peces están pintados de rojo antes del sorteo" ).

A partir de la descripción de la pregunta, estamos probando un fraude en el sorteo. Un grupo específico de 12 personas se quejó de que solo 2 de ellos fueron seleccionados, mientras que el número esperado era 232/363 ~ 2/3 = 8.

Lo que realmente necesitamos calcular es cuáles son las probabilidades de que " Ningún grupo de tamaño 12 tendrá solo 2 miembros seleccionados". Las probabilidades de que al menos un grupo tenga 2 o menos (por lo tanto, se quejarán de la imparcialidad del sorteo) son mucho más altas.

Cuando ejecuto esta simulación y compruebo cuántas de las pruebas ninguno de los 30 grupos (= 360/12) tenía 2 o menos selecciones, obtengo aproximadamente el 2.3% de las veces. 1:42 es bajo pero no imposible.

Aún debe verificar el procedimiento del sorteo, ya que puede estar sesgado en contra de un grupo específico de personas. Es posible que se hayan unido y recibido un rango del sorteo con menos probabilidad (el primer o el último número, por ejemplo), o cualquier variable dependiente del procedimiento del sorteo. Pero si no encuentra ningún defecto en el procedimiento, puede volver a las probabilidades de 1:42 de que es simplemente mala suerte para el grupo.

Chico
fuente
Un buen punto, PERO (a) seguramente no todos los grupos posibles de 12 tienen suficiente similitud con la materia, y (b) no todos los grupos que tienen suficiente similitud con la materia tienen exactamente 12 miembros.
zbicyclist
@zbicyclist, no afirmo que el cálculo sea exacto. Quería dar una duda razonable (ya que estamos en el ámbito de la ley con detección de fraude), de que el sorteo no es culpable.
Guy