Considere una urna que contiene bolas de diferentes colores, siendo la proporción de bolas de color entre las bolas ( ). Extraigo bolas de la urna sin reemplazo y miro el número de diferentes colores entre las bolas que se dibujaron. ¿Cuál es la expectativa de en función de , dependiendo de las propiedades adecuadas de la distribución ?P p i i N ∑ i p i = 1 n ≤ Nγ n / N p
Para dar más información: si y para todo , siempre veré exactamente colores, es decir, . De lo contrario, se puede demostrar que la expectativa de es . Para y fijos , parecería que el factor por el cual multiplicar sería máximo cuando es uniforme; ¿tal vez el número esperado de colores diferentes visto esté limitado en función de y, por ejemplo, la entropía de ?p i = 1 / P i n γ = P ( n / N ) γ > P ( n / N ) P N n / N p n / N p
Esto parece estar relacionado con el problema del recolector de cupones, excepto que el muestreo se realiza sin reemplazo y la distribución de los cupones no es uniforme.
Respuestas:
Suponga que tiene colores, donde k ≤ N . Let b i denota el número de bolas de color i tan Σ b i = N . Dejar que B = { b 1 , ... , b k } y dejar E i ( B ) notate el conjunto que se compone de los i subconjuntos de elementos de B . Sea Q n , c el número de formas en que podemos elegir nk k≤N bi i ∑bi=N B={b1,…,bk} Ei(B) i B Qn,c n elementos del conjunto anterior de modo que el número de colores diferentes en el conjunto elegido sea . Para c = 1 la fórmula es simple:c c=1
Para podemos contar conjuntos de bolas de tamaño n que tiene como máximo 2 colores menos el número de conjuntos que tienen exactamente 1 color:c=2 n 1
es la cantidad de formas en que puede agregar un color a un color fijo, de modo que tendrá 2 colores si tienekcolores en total. La fórmula genérica es si tienec1colores fijos y desea hacerc2colores mientras tienekcolores en total (c1≤c2≤k) es ( k-c1(k−11) k c1 c2 k c1≤c2≤k . Ahora tenemos todo para derivar la fórmula genérica paraQn,c:(k−c1c2−c1) Qn,c
La probabilidad de que tenga exactamente colores si dibuja n bolas es:c n
También tenga en cuenta que(xy)=0 if y>x .
Probably there are special cases where the formula can be simplified. I didn't bother to find those simplifications this time.
The expected value you're looking for the number of colors dependent onn is the following:
fuente