¿Cuál es la respuesta real a la pregunta de cumpleaños?

13

"¿Qué tan grande debe ser una clase para que la probabilidad de encontrar dos personas con el mismo cumpleaños sea al menos 50%?"

Tengo 360 amigos en Facebook y, como era de esperar, la distribución de sus cumpleaños no es uniforme en absoluto. Tengo un día con eso tiene 9 amigos con el mismo cumpleaños. (9 meses después de las grandes vacaciones y el día de San Valentín parecen ser grandes, jaja ...) Entonces, dado que algunos días son más propensos a un cumpleaños, supongo que el número 23 es un límite superior.

¿Ha habido una mejor estimación de este problema?

Adán
fuente
3
Una muestra de 360 ​​personas no es una muestra grande para la distribución de cumpleaños durante los 365 días del año ... Ciertamente no puede verificar la uniformidad en una muestra tan pequeña.
Xi'an
Una persona cumple años, ¿cuáles son las probabilidades de que una segunda persona no comparta el mismo cumpleaños? 364/365, ¿cuáles son las probabilidades de que una tercera persona no comparta cumpleaños? (364/365) * (363/365). Expande esto hasta que tengas una probabilidad < 50%. Significaría las probabilidades de que nadie tenga el mismo cumpleaños, lo que a su vez significaría que las probabilidades de que al menos dos compartan un cumpleaños serían > 50%.
zzzzBov
8
¿Debemos suponer que tienes amigos al azar ?
James
1
@zzzzBov: no entiendes lo que pide el OP. Este es el enfoque en el que asumimos que cada cumpleaños es igualmente probable, cada uno con posibilidades de ser tuyo. El PO está pidiendo lo que la estimación sería cuando dicen haber nacido el 1 de Jan no es tan probable como nacido el 15 de Feb1365
probabilityislogic

Respuestas:

18

Afortunadamente, alguien ha publicado algunos datos genuinos de cumpleaños con un poco de discusión sobre una pregunta relacionada (es el uniforme de distribución). Podemos usar esto y volver a muestrear para mostrar que la respuesta a su pregunta es aparentemente 23, la misma que la respuesta teórica .

> x <- read.table("bdata.txt", header=T)
> birthday <- data.frame(date=as.factor(x$date), count=x$count)
> summary(birthday) 
      date         count     
 101    :  1   Min.   : 325  
 102    :  1   1st Qu.:1266  
 103    :  1   Median :1310  
 104    :  1   Mean   :1314  
 105    :  1   3rd Qu.:1362  
 106    :  1   Max.   :1559  
 (Other):360                 
> results <- rep(0,50)
> reps <-2000 # big number needed as there is some instability otherwise
> for (i in 1:50)
+ {
+ count <- 0
+ for (j in 1:reps)
+ {
+ samp <- sample(birthday$date, i, replace=T, prob=birthday$count)
+ count <- count + 1*(max(table(samp))>1)
+ }
+ results[i] <- count/reps
+ }
> results
 [1] 0.0000 0.0045 0.0095 0.0220 0.0210 0.0395 0.0570 0.0835 0.0890 0.1165
[11] 0.1480 0.1770 0.1955 0.2265 0.2490 0.2735 0.3105 0.3350 0.3910 0.4165
[21] 0.4690 0.4560 0.5210 0.5310 0.5745 0.5975 0.6240 0.6430 0.6950 0.7015
[31] 0.7285 0.7510 0.7690 0.8025 0.8225 0.8280 0.8525 0.8645 0.8685 0.8830
[41] 0.8965 0.9020 0.9240 0.9435 0.9350 0.9465 0.9545 0.9655 0.9600 0.9665
Peter Ellis
fuente
8
De hecho, se puede demostrar a través de la convexidad de Schur , que para cualquier distribución no uniforme de cumpleaños, la probabilidad de una coincidencia es al menos tan grande como en el caso uniforme. Este es el ejercicio 13.7 de J. Michael Steele, La clase magistral de Cauchy-Schwarz: Una introducción al arte de las desigualdades matemáticas , Cambridge University Press, 2004, pág. 206 .
cardenal
2
@ Xi'an: De hecho. Ahora, si solo conociera a alguien que hiciera reseñas de libros para una revista de estadísticas de alta calidad y alto número de lectores, sugeriría que la revisen para darle una mayor visibilidad a los estadísticos ... pero dónde encontrar a esa persona ...
cardenal
3
(Para aquellos que se estén preguntando acerca de mi comentario inmediatamente anterior, hace referencia al hecho de que @ Xi'an es el nuevo crítico de libros para Chance .)
cardenal
2
@ Xi'an, mira esto y ver lo que piensa: table(replicate(10^5, max(tabulate(sample(1:365,360,rep=TRUE))))).
whuber
3
Probablemente no esté claro, excepto para R cognoscenti, que el código en comentarios anteriores de @ Xi'an y de mí mismo simula la situación del OP. Su funcionamiento establece que la posibilidad de que 9 o más personas compartan un cumpleaños, de 360 elegidos al azar de una población distribuida uniformemente, es solo alrededor de 40 de 100,000. El valor más probable para el número máximo de cumpleaños compartidos es 5.
whuber