Suponga que tuvo un año extraterrestre con una longitud desconocida N. Si tiene una muestra aleatoria de dichos extraterrestres y algunos de ellos comparten cumpleaños, ¿puede usar estos datos para estimar la duración del año?
Por ejemplo, en una muestra de 100, podría tener dos trillizos (es decir, dos cumpleaños cada uno compartido por tres alienígenas) y cinco pares y ochenta y cuatro singletons. Al estimar N, el mínimo absoluto es 91 y el máximo no tiene límites, pero ¿cómo podría encontrar un valor esperado razonable?
Los supuestos incluyen cosas como "todos los cumpleaños son igualmente probables".
A diferencia de otra pregunta respondida aquí, hay colisiones conocidas en la sala. Cualquier año suficientemente largo tendrá una gran probabilidad de que no haya colisiones para una habitación de extraterrestres. Pero los años muy largos tendrán pocas probabilidades de colisiones, y los años cortos tendrán pocas probabilidades de pocas colisiones, lo que proporciona un rango (teórico) para las duraciones de año más probables.
fuente
Respuestas:
El valor esperado de una distribución se calcula como . Para este problema, queremos calcular la distribución de dados algunos criterios de colisión, o encontrar dados algunos criterios de colisión, dondeE(X)=∑pixi N E(N)=∑∞n=0pnn pn=P(N=n).
Suponga que tiene algunos criterios de colisión como se indicó anteriormente, y que sea la probabilidad de que se cumplan los criterios de colisión dada la duración del año esEntonces se puede encontrar simplemente dividiendo el número de formas en que se pueden cumplir los criterios de colisión por el número de formas en que se pueden organizar los cumpleaños en general. Una vez que se encuentra para cada posible , entonces la única pieza que falta es traducir aqn n. qn qn n qn pn.
Si suponemos que es proporcional a q n , entonces p n = α q n . Como ∑ ∞ n = 0 p n = 1 , α ∑ ∞ n = 0 q n = 1 y α = 1pn qn pn=αqn. ∑∞n=0pn=1 α∑∞n=0qn=1 Por lo tanto, solo necesitamos una fórmula paraqnpara resolver este problema.α=1∑∞n=0qn. qn
Para su ejemplo, primero encontremos la cantidad de formas en que los criterios de colisión pueden suceder dado El primer singleton alienígena puede aterrizar en cualquier día, por lo que hay n posibilidades. El próximo singleton puede aterrizar en cualquier día excepto el cumpleaños del primer alienígena, por lo que hay n - 1 posibilidades. Completando esto para los primeros 84 singletons, obtenemos n ( n - 1 ) ( n - 2 ) . . . ( n - 83 )N=n. n n−1 n(n−1)(n−2)...(n−83) posibles formas en que esto puede suceder. Tenga en cuenta que también tenemos 5 pares y 2 trillizos, por lo que el "primer" alienígena para cada grupo tampoco debe aterrizar en los pares singleton. Esto lleva a un formas en que estos extraterrestres no chocan (la sintaxis torpe es para una generalización más fácil más adelante).n(n−1)(n−2)...(n−84−5−2+1)
Luego, el segundo alienígena para un par o triplete dado tiene 91 opciones, el siguiente tiene 90, etc., el número total de formas en que esto puede suceder dados los cumpleaños de los primeros 91 alienígenas es . Los miembros restantes de los trillizos deben caer en los cumpleaños de las parejas, y la probabilidad de que eso ocurra es 7 ∗ 6 . Multiplicamos las probabilidades de todos estos elementos para obtener un número total de formas posibles de cumplir los criterios de colisión como:91(91−1)(91−2)...(91−7+1) 7∗6
En este punto el patrón es claro, si tenemos singletons, b pares, y c trillizos, reemplazamos 84 con un , 5 con b , y 2 con c para obtener una fórmula generalizada. Creo que también está claro que el número de formas posibles para organizar los cumpleaños en general es n m , donde m es el número total de extraterrestres en el problema. Por lo tanto, la probabilidad de cumplir con los criterios de colisión es la cantidad de formas de cumplir con los criterios de colisión dividida por la cantidad de formas en que los extraterrestres podrían nacer, o q n = r na b c a, b, c nm .qn=rnnm
Otra cosa interesante apareció en la fórmula de . Sea y n = n ( n - 1 ) . . . ( n - ( a + b + c ) + 1 ) = n !rn , y seaznla porción restante dernpara quern=ynzn. Tenga en cuenta queznes independiente de n, por lo que simplemente podemos escribirzn=zcomo una constante. Ya quepn=qn/∑ ∞ i = 0 qi, yqn=yn=n(n−1)...(n−(a+b+c)+1)=n!(n−(a+b+c))! zn rn rn=ynzn zn zn=z pn=qn/∑∞i=0qi , en realidad podemos factorizarz apartir de la suma en el denominador. En este punto, se cancela con la parte del numerador para obtenerpn=ynqn=zynnm z . Podemos simplificarynaún más si dejamos ques=a+b+c(o esto puede considerarse como el número de cumpleaños únicos en el grupo de extraterrestres), de modo que obtenemos:pn=ynnm/∑∞i=0(yiim) yn s=a+b+c
Ahora tenemos una fórmula (bastante) simple para , y por lo tanto una fórmula (bastante) simple para E ( N ) , donde la única suposición hecha fue que P ( N = n ) es proporcional a q n (la probabilidad de cumplir los criterios de colisión dado que N = n ). Creo que es una suposición justa, y alguien más inteligente que yo podría incluso demostrar que esta suposición está asociada con P ( N = n ) después de una distribución multinomial. En este punto podemos calcular Epagnorte mi( N) PAG( N= n ) qnorte norte= n PAG( N= n ) utilizando métodos numéricos o hacer algunas suposiciones de aproximación, ya que p n se acercará a 0 a medida que n se aproxima a ∞ .mi( N) pagnorte norte ∞
fuente
La excelente respuesta de Cody ofrece una buena manera de expresar la función de probabilidad paraN , el número de días en el año (o la distribución posterior en base a un previo plana) por factorización a cabo una parte de la probabilidad de que es independiente de N .
En esta respuesta, me gustaría escribirlo de manera más concisa y también proporcionar una forma de calcular el máximo de esta función de probabilidad (en lugar del valor esperado, que es mucho más difícil de calcular).
Función de verosimilitud para N
El número de maneras de dibujar una secuencia dea+2b+3c cumpleaños de un conjunto de n cumpleaños, con la restricción de que a es el número de cumpleaños individuales, b cumpleaños duplicados, y c triples cumpleaños es igual a
y solo el primer término en el lado derecho depende denorte , por lo que al factorizar los otros términos terminamos con una expresión simple para una función de probabilidad L(n|a,b,c)=∝n−(a+2b+3c)n!(n−a−b−c)!=n−mn!(n−s)!P(a,b,c|n)
donde seguimos la notación de Cody y usamosm para denotar el número de extraterrestres s el número de cumpleaños únicos.
Estimación de máxima verosimilitud para N
Podemos utilizar esta función de probabilidad para derivar la estimación de máxima verosimilitud deN .
Tenga en cuenta que
y el máximo ocurrirá justo antes de lan para la cual
o
fuente