En el problema clásico de Coupon Collector , es bien sabido que el tiempo necesario para completar un conjunto de cupones elegidos al azar satisface , y .
Este límite superior es mejor que el dado por la desigualdad de Chebyshev, que sería aproximadamente .
Mi pregunta es: ¿hay un límite inferior correspondiente mejor que Chebyshev para ? (por ejemplo, algo como )?
Respuestas:
Estoy proporcionando esto como una segunda respuesta ya que el análisis es completamente elemental y proporciona exactamente el resultado deseado.
Proposición Parac>0 y n≥1 ,
La idea detrás de la prueba es simple:
Prueba
Para cualquier y cualquier , tenemos quet P ( T < t ) = P ( e - s T > e - s t ) ≤ e s t E e - s Ts>0
Como y son independientes, podemos escribir T i E e - s T = n ∏ i = 1 E e - s T iT=∑iTi Ti
Ahora, dado que es geométrico, digamos con probabilidad de éxito , entonces un cálculo simple muestraTi E e - s T i = p ipi
Los para nuestro problema son , , , etc. Por lo tanto, p 1 = 1 p 2 = 1 - 1 / n p 3 = 1 - 2 / n n ∏ i = 1 E e - s T i = n ∏ i = 1 i / npi p1=1 p2=1−1/n p3=1−2/n
Vamos a elegir y para algunos . Entonces y , dando t = n log n - c n c > 0 e s t = n e - c e s = e 1 / n ≥ 1 + 1 / n n ∏ i = 1 i / ns=1/n t=nlogn−cn c>0
Al poner esto juntos, obtenemos que
como se desee.
fuente
Aunque @cardinal ya ha dado una respuesta que da precisamente el límite que estaba buscando, he encontrado un argumento similar al estilo de Chernoff que puede dar un límite más fuerte:
Proposición : (esto es más fuerte para )c > π 2
Prueba :
Como en la respuesta de @ cardinal, podemos utilizar el hecho de que es una suma de variables aleatorias geométricas independientes con probabilidades de éxito . Se deduce que y .T i p i = 1 - i / n E [ T i ] = 1 / p iT Ti pi=1−i/n E[Ti]=1/pi E[T]=∑ni=1E[Ti]=n∑ni=11i≥nlogn
Defina ahora nuevas variables y . Entonces podemos escribirSi:=Ti−E[Ti] S:=∑iSi
Calculando los promedios, tenemos
Por lo tanto, dado que , podemos escribir∑ip−2i=n2∑n−1i=11i2≤n2π2/6
Minimizando sobre , finalmente obtenemoss>0
fuente
Nota importante : he decidido eliminar la prueba que proporcioné originalmente en esta respuesta. Fue más largo, más computacional, usó martillos más grandes y demostró un resultado más débil en comparación con la otra prueba que he dado. A su alrededor, un enfoque inferior (en mi opinión). Si está realmente interesado, supongo que puede ver las ediciones.
Los resultados asintóticos que cité originalmente y que todavía se encuentran a continuación en esta respuesta muestran que, como , podemos hacerlo un poco mejor que el límite demostrado en la otra respuesta, que se cumple para todos los .n→∞ n
Los siguientes resultados asintóticos se mantienen
y
La constante y los límites se toman como . Tenga en cuenta que, aunque están separados en dos resultados, son más o menos el mismo resultado, ya que no está limitado a ser negativo en ninguno de los casos.c∈R n→∞ c
Ver, por ejemplo, Motwani y Raghavan, Randomized Algorithms , pp. 60-63 para una prueba.
Además : David amablemente proporciona una prueba de su límite superior declarado en los comentarios a esta respuesta.
fuente
Benjamin Doerr ofrece (en el capítulo "Análisis de la heurística de búsqueda aleatoria: herramientas de la teoría de la probabilidad" en el libro "Teoría de la heurística de búsqueda aleatoria", vea el enlace para un PDF en línea) una prueba algo simple de
Propuesta Deje que sea el tiempo de parada del proceso de recolección de cupones. Entonces .Pr [ T ≤ ( 1 - ϵ ) ( n - 1 ) ln n ] ≤ e - n ϵT Pr[T≤(1−ϵ)(n−1)lnn]≤e−nϵ
Esto parece dar las asíntotas deseadas (de la segunda respuesta de @ cardinal), pero con la ventaja de ser cierto para todos y .ϵn ϵ
Aquí hay un boceto de prueba.
Boceto de prueba: Sea el caso de que el -ésimo cupón se recoja en los primeros sorteos. Por lo tanto, . El hecho clave es que las están negativamente correlacionadas, para cualquier , . Intuitivamente, esto es bastante claro, como saber que el cupón -ésimo en el primer atrae haría menos probable que el cupón -ésimo También se señala en el primer atrae.Xi i t Pr[Xi=1]=(1−1/n)t Xi I⊆[n] Pr[∀i∈I,Xi=1]≤∏i∈IPr[Xi=1] i t j t
Uno puede probar la afirmación, pero ampliando el conjunto en 1 en cada paso. Entonces se reduce a mostrar que , para . De manera equivalente, al promediar, se reduce a mostrar que . Doerr solo da un argumento intuitivo para esto. Una vía para una prueba es la siguiente. Se puede observar que, condicionado al cupón viene después de todos los cupones en , que la probabilidad de sacar un nuevo cupón de después de sacar hasta ahora es ahora , en lugar del anteriorI Pr[∀i∈I,Xi=1|Xj=1]≤Pr[∀i∈I,Xi=1] j∉I j I I k | Yo | - kPr[∀i∈I,Xi=1|Xj=0]≥Pr[∀i∈I,Xi=1] j I I k | Yo| -k|I|−kn−1 jI|I|−kn . Entonces, al descomponer el tiempo para recolectar todos los cupones como una suma de variables geométricas aleatorias, podemos ver que el condicionamiento del cupón que viene después de que aumente las probabilidades de éxito, y por lo tanto, hacer el condicionamiento solo hace que sea más probable recoger los cupones antes por dominio estocástico: cada variable aleatoria geométrica se incrementa, en términos de dominio estocástico, por el condicionamiento, y este dominio se puede aplicar a la suma).j I
Dada esta correlación negativa, se deduce que , que da el límite deseado con . t = ( 1 - ϵ ) ( n - 1 ) ln nPr[T≤(1−ϵ)(n−1)lnn]≤(1−(1−1/n)t)n t=(1−ϵ)(n−1)lnn
fuente