Problema de cumpleaños inverso con múltiples colisiones

9

Suponga que tuvo un año extraterrestre con una longitud desconocida N. Si tiene una muestra aleatoria de dichos extraterrestres y algunos de ellos comparten cumpleaños, ¿puede usar estos datos para estimar la duración del año?

Por ejemplo, en una muestra de 100, podría tener dos trillizos (es decir, dos cumpleaños cada uno compartido por tres alienígenas) y cinco pares y ochenta y cuatro singletons. Al estimar N, el mínimo absoluto es 91 y el máximo no tiene límites, pero ¿cómo podría encontrar un valor esperado razonable?

Los supuestos incluyen cosas como "todos los cumpleaños son igualmente probables".

A diferencia de otra pregunta respondida aquí, hay colisiones conocidas en la sala. Cualquier año suficientemente largo tendrá una gran probabilidad de que no haya colisiones para una habitación de extraterrestres. Pero los años muy largos tendrán pocas probabilidades de colisiones, y los años cortos tendrán pocas probabilidades de pocas colisiones, lo que proporciona un rango (teórico) para las duraciones de año más probables.

Techhead
fuente
3
Mi respuesta a una versión especial de esta pregunta se generaliza fácilmente (mediante la distribución multinomial): consulte stats.stackexchange.com/questions/252813 .
whuber
@Techhead De varias maneras! El enfoque obvio para la estimación de parámetros a mencionar sería la máxima probabilidad.
Glen_b -Reinstale a Monica
1
@whuber Vi esa pregunta y su comentario, pero no vi cómo aplicar la mayor parte a una muestra con colisiones conocidas. No es difícil encontrar la forma expandida, pero no sé cómo encontraría la suma logarítmica.
Techhead
1
Estoy de acuerdo en que su versión es lo suficientemente más complicada que no debería cerrarse como duplicado.
whuber

Respuestas:

2

El valor esperado de una distribución se calcula como . Para este problema, queremos calcular la distribución de dados algunos criterios de colisión, o encontrar dados algunos criterios de colisión, dondeE(X)=pixiNE(N)=n=0pnnpn=P(N=n).

Suponga que tiene algunos criterios de colisión como se indicó anteriormente, y que sea ​​la probabilidad de que se cumplan los criterios de colisión dada la duración del año esEntonces se puede encontrar simplemente dividiendo el número de formas en que se pueden cumplir los criterios de colisión por el número de formas en que se pueden organizar los cumpleaños en general. Una vez que se encuentra para cada posible , entonces la única pieza que falta es traducir aqnn.qnqnnqnpn.

Si suponemos que es proporcional a q n , entonces p n = α q n . Como n = 0 p n = 1 , α n = 0 q n = 1 y α = 1pnqnpn=αqn.n=0pn=1αn=0qn=1Por lo tanto, solo necesitamos una fórmula paraqnpara resolver este problema.α=1n=0qn.qn

Para su ejemplo, primero encontremos la cantidad de formas en que los criterios de colisión pueden suceder dado El primer singleton alienígena puede aterrizar en cualquier día, por lo que hay n posibilidades. El próximo singleton puede aterrizar en cualquier día excepto el cumpleaños del primer alienígena, por lo que hay n - 1 posibilidades. Completando esto para los primeros 84 singletons, obtenemos n ( n - 1 ) ( n - 2 ) . . . ( n - 83 )N=n.nn1n(n1)(n2)...(n83)posibles formas en que esto puede suceder. Tenga en cuenta que también tenemos 5 pares y 2 trillizos, por lo que el "primer" alienígena para cada grupo tampoco debe aterrizar en los pares singleton. Esto lleva a un formas en que estos extraterrestres no chocan (la sintaxis torpe es para una generalización más fácil más adelante).norte(norte-1)(norte-2)...(norte-84-5 5-2+1)

Luego, el segundo alienígena para un par o triplete dado tiene 91 opciones, el siguiente tiene 90, etc., el número total de formas en que esto puede suceder dados los cumpleaños de los primeros 91 alienígenas es . Los miembros restantes de los trillizos deben caer en los cumpleaños de las parejas, y la probabilidad de que eso ocurra es 7 6 . Multiplicamos las probabilidades de todos estos elementos para obtener un número total de formas posibles de cumplir los criterios de colisión como:91 91(91 91-1)(91 91-2)...(91 91-7 7+1)7 76 6

rnorte=norte(norte-1)...(norte-84-5 5-2+1)(84+5 5+2)(84+5 5+2-1)...(84+1)(5 5+2)(5 5+1)

En este punto el patrón es claro, si tenemos singletons, b pares, y c trillizos, reemplazamos 84 con un , 5 con b , y 2 con c para obtener una fórmula generalizada. Creo que también está claro que el número de formas posibles para organizar los cumpleaños en general es n m , donde m es el número total de extraterrestres en el problema. Por lo tanto, la probabilidad de cumplir con los criterios de colisión es la cantidad de formas de cumplir con los criterios de colisión dividida por la cantidad de formas en que los extraterrestres podrían nacer, o q n = r nunasiCuna,si,Cnm .qn=rnnm

Otra cosa interesante apareció en la fórmula de . Sea y n = n ( n - 1 ) . . . ( n - ( a + b + c ) + 1 ) = n !rn, y seaznla porción restante dernpara quern=ynzn. Tenga en cuenta queznes independiente de n, por lo que simplemente podemos escribirzn=zcomo una constante. Ya quepn=qn/i = 0 qi, yqn=yn=n(n1)...(n(a+b+c)+1)=n!(n(a+b+c))!znrnrn=ynznznzn=zpn=qn/i=0qi , en realidad podemos factorizarz apartir de la suma en el denominador. En este punto, se cancela con la parte del numerador para obtenerpn=ynqn=zynnmz. Podemos simplificarynaún más si dejamos ques=a+b+c(o esto puede considerarse como el número de cumpleaños únicos en el grupo de extraterrestres), de modo que obtenemos:pn=ynnm/i=0(yiim)yns=a+b+c

pn=n!(ns)!nm/i=0(i!(is)!im)

Ahora tenemos una fórmula (bastante) simple para , y por lo tanto una fórmula (bastante) simple para E ( N ) , donde la única suposición hecha fue que P ( N = n ) es proporcional a q n (la probabilidad de cumplir los criterios de colisión dado que N = n ). Creo que es una suposición justa, y alguien más inteligente que yo podría incluso demostrar que esta suposición está asociada con P ( N = n ) después de una distribución multinomial. En este punto podemos calcular EpnE(N)P(N=n)qnN=nP(N=n) utilizando métodos numéricos o hacer algunas suposiciones de aproximación, ya que p n se acercará a 0 a medida que n se aproxima a .E(N)pnn

Cody Maughan
fuente
Parece que usted propone calcular el valor esperado basado en una función de probabilidad en lugar de una función de masa de probabilidad. ¿Fue eso intencional?
Sextus Empiricus
2

La excelente respuesta de Cody ofrece una buena manera de expresar la función de probabilidad para N , el número de días en el año (o la distribución posterior en base a un previo plana) por factorización a cabo una parte de la probabilidad de que es independiente de norte .

En esta respuesta, me gustaría escribirlo de manera más concisa y también proporcionar una forma de calcular el máximo de esta función de probabilidad (en lugar del valor esperado, que es mucho más difícil de calcular).


Función de verosimilitud para N

El número de maneras de dibujar una secuencia de a+2b+3c cumpleaños de un conjunto de n cumpleaños, con la restricción de que una es el número de cumpleaños individuales, b cumpleaños duplicados, y c triples cumpleaños es igual a

rn=(na+b+c)number of ways topick m unique birthdaysout of n days(a+b+c)!a!b!c!number of ways todistribute m birthdaysamong groups of size ab and c(a+2b+3c)!1!a2!b3!cnumber of ordered ways toarrange specific single, duplicate, and triplicatesamong the aliens =n!(nabc)!×(a+2si+3C)una!si!C!1!una2!si3!C

y solo el primer término en el lado derecho depende de norte , por lo que al factorizar los otros términos terminamos con una expresión simple para una función de probabilidad

L(n|a,b,c)=n(a+2b+3c)n!(nabc)!=nmn!(ns)!P(a,b,c|n)

donde seguimos la notación de Cody y usamos m para denotar el número de extraterrestres s el número de cumpleaños únicos.


Estimación de máxima verosimilitud para N

Podemos utilizar esta función de probabilidad para derivar la estimación de máxima verosimilitud de N .

Tenga en cuenta que

L(n)=L(n1)(n1n)mnns

y el máximo ocurrirá justo antes de la n para la cual

(n1n)mnns=1

o

s=n(1(11/n)m)

nx=1/nxx=0

sk=0l(mk)(n)k+O(n(l+1))

smm(m1)2n

n1(m2)ms

smm(m1)2n+m(m1)(m2)6n2

n2(m2)+(m2)24(ms)(m3)2(ms)

m=100s=91n1550n2515.1215n=516.82n=516

Comparación de aproximación con verdadero MLE

Sexto empírico
fuente