Distancia máxima entre muestras extraídas sin reemplazo de una distribución uniforme discreta

16

Este problema está relacionado con la investigación de mi laboratorio en cobertura robótica:

Dibuja al azar números del conjunto sin reemplazo, y ordena los números en orden ascendente. .n n{ 1 , 2 , ... , m } {1,2,,m}1 n m1nm

De esta lista ordenada de números , genera la diferencia entre números consecutivos y los límites: . Esto da brechas.{ a ( 1 ) , a ( 2 ) , ... , a ( n ) } {a(1),a(2),,a(n)}g = { a ( 1 ) , a ( 2 ) - a ( 1 ) , ... , a ( n ) - a ( n - 1 ) , m + 1 - a ( n ) } g={a(1),a(2)a(1),,a(n)a(n1),m+1a(n)}n +1n+1

¿Cuál es la distribución de la brecha máxima?

P ( max ( g ) = k ) = P ( k ; m , n ) = ?P(max(g)=k)=P(k;m,n)=?

Esto se puede enmarcar utilizando estadísticas de pedido : P ( g ( n + 1 ) = k ) = P ( k ; m , n ) = ?P(g(n+1)=k)=P(k;m,n)=?

Vea el enlace para la distribución de brechas , pero esta pregunta hace referencia a la distribución de la brecha máxima .

Estaría satisfecho con el valor promedio, E [ g ( n + 1 ) ]E[g(n+1)] .

Si n = mn=m todos los espacios son de tamaño 1. Si n + 1 = mn+1=m hay un espacio de tamaño 22 , n + 1n+1 posibles ubicaciones. El tamaño máximo de espacio es m - n + 1mn+1 , y este espacio se puede colocar antes o después de cualquiera de los norten números, para un total de n + 1n+1 posibles posiciones. El tamaño de espacio máximo más pequeño es mnn+1mnn+1 . Defina la probabilidad de cualquier combinación dada T=(mn)1T=(mn)1 .

He resuelto parcialmente la función de masa de probabilidad como P(g(n+1)=k)=P(k;m,n)={0k<mnn+11k=mnn+11k=1 (occurs when m=n)T(n+1)k=2 (occurs when m=n+1)T(n+1)k=m(n1)n?m(n1)nkmn+1T(n+1)k=mn+10k>mn+1P(g(n+1)=k)=P(k;m,n)=011T(n+1)T(n+1)?T(n+1)0k<mnn+1k=mnn+1k=1 (occurs when m=n)k=2 (occurs when m=n+1)k=m(n1)nm(n1)nkmn+1k=mn+1k>mn+1(1)

Trabajo actual (1): La ecuación para la primera brecha, es sencilla: El valor esperado tiene un valor simple: . Por simetría, espero que todos los espacios tengan esta distribución. Quizás la solución podría encontrarse extrayendo esta distribución veces.a(1)a(1)P(a(1)=k)=P(k;m,n)=1(mn)mn+1k=1(mk1n1)

P(a(1)=k)=P(k;m,n)=1(mn)k=1mn+1(mk1n1)
E[P(a(1))]=1(mn)mn+1k=1(mk1n1)k=mn1+nE[P(a(1))]=1(mn)mn+1k=1(mk1n1)k=mn1+nnnnn

Trabajo actual (2): es fácil ejecutar simulaciones de Monte Carlo.

simMaxGap[m_, n_] := Max[Differences[Sort[Join[RandomSample[Range[m], n], {0, m+1}]]]];
m = 1000; n = 1; trials = 100000;
SmoothHistogram[Table[simMaxGap[m, n], {trials}], Filling -> Axis,
Frame -> {True, True, False, False},
FrameLabel -> {"k (Max gap)", "Probability"},
PlotLabel -> StringForm["m=``,n=``,smooth histogram of maximum map for `` trials", m, n, trials]][![enter image description here][1]][1]
AaronBecker
fuente
1
Con estas condiciones debe tener n <= m. Creo que quieres g = {a_ (1), a_ (2) -a_ (1), ..., a_ (n) -a_ (n-1)}. ¿Seleccionar al azar significa seleccionar cada número con probabilidad 1 / m en el primer sorteo? Dado que no reemplaza la probabilidad sería 1 / (m-1) en el segundo y así sucesivamente hasta 1 en el sorteo mth si n = m. Si n <m esto se detendría antes con el último sorteo con probabilidad 1 / (m- (n-1)) en el enésimo sorteo.
Michael R. Chernick
2
Su descripción original de no tenía sentido, porque (creo) que transpuso dos de los subíndices. Verifique que mi edición se ajuste a su intención: en particular, confirme que quiere decir que hay espacios, de los cuales es el primero. ggnna(1)a(1)
whuber
1
@gung Creo que esto es investigación, en lugar de autoestudio
Glen_b -Reinstate Monica
1
Creo que tu tamaños máximos de desfase mínimo y deben ser y . El tamaño de espacio mínimo es cuando se eligen enteros consecutivos, y el tamaño de espacio máximo se produce cuando selecciona y primeros enteros (o y )11mn+1mn+1mmn1n11,,n11,,n111mn+2,,mmn+2,,m
probabilidadislogica
1
Gracias a Michael Chernick y a probableislogic, se han hecho sus correcciones. ¡Gracias @whuber por hacer la corrección!
AaronBecker

Respuestas:

9

Sea la posibilidad de que el mínimo, , sea igual a ; es decir, la muestra consta de un subconjunto de . Hay tales subconjuntos de los subconjuntos igualmente probables, de dondef(g;n,m)f(g;n,m)a(1)a(1)ggggn1n1{g+1,g+2,,m}{g+1,g+2,,m}(mgn1)(mgn1)(mn)(mn)

Pr(a(1)=g=f(g;n,m)=(mgn1)(mn).

Pr(a(1)=g=f(g;n,m)=(mgn1)(mn).

Agregar para todos los valores posibles de mayores que produce la función de supervivenciaf(k;n,m)f(k;n,m)kkgg

Pr(a(1)>g)=Q(g;n,m)=(mg)(mg1n1)n(mn).

Pr(a(1)>g)=Q(g;n,m)=(mg)(mg1n1)n(mn).

Deje ser la variable aleatoria dada por la brecha más grande:Gn,mGn,m

Gn,m=max(a(1),a(2)a(1),,a(n)a(n1)).

Gn,m=max(a(1),a(2)a(1),,a(n)a(n1)).

(Esto responde a la pregunta como enmarcados originalmente, antes de que se modificó para incluir un hueco entre y .)a(n)a(n)mm Vamos a calcular su función de supervivencia de la cual se deriva fácilmente la distribución completa de . El método es un programa dinámico que comienza con , por lo que es obvio queP(g;n,m)=Pr(Gn,m>g),

P(g;n,m)=Pr(Gn,m>g),
Gn,mGn,mn=1n=1

P(g;1,m)=Pr(G1,m>1)=mgm, g=0,1,,m.

P(g;1,m)=Pr(G1,m>1)=mgm, g=0,1,,m.(1)

Para más grande , tenga en cuenta que el evento es la unión disjunta del eventon>1n>1Gn,m>gGn,m>g

a1>g,

a1>g,

para el cual la primera brecha excede , y los eventos separadosgggg

a1=k and Gn1,mk>g, k=1,2,,g

a1=k and Gn1,mk>g, k=1,2,,g

para el cual la primera brecha es igual a y una brecha mayor que ocurre más tarde en la muestra. La Ley de Probabilidad Total afirma que las probabilidades de estos eventos se suman, de dondekkgg

P(g;n,m)=Q(g;n,m)+gk=1f(k;n,m)P(g;n1,mk).

P(g;n,m)=Q(g;n,m)+k=1gf(k;n,m)P(g;n1,mk).(2)

Fijación y se fijan a cabo una matriz de dos vías indexados por y , podemos calcular mediante el uso de para completar su primera fila y para completar cada fila sucesiva utilizando operaciones por fila. En consecuencia, la tabla se puede completar en operaciones y todas las tablas para a se pueden construir en operaciones .ggi=1,2,,ni=1,2,,nj=1,2,,mj=1,2,,mP(g;n,m)P(g;n,m)(1)(1)(2)(2)O(gm)O(gm)O(gmn)O(gmn)g=1g=1g=mn+1g=mn+1O(m3n)O(m3n)

Figure

Estos gráficos muestran la función de supervivencia para . A medida que aumenta , el gráfico se mueve hacia la izquierda, lo que corresponde a las posibilidades decrecientes de grandes brechas.gP(g;n,64)gP(g;n,64)n=1,2,4,8,16,32,64n=1,2,4,8,16,32,64nn

Las fórmulas cerradas para se pueden obtener en muchos casos especiales, especialmente para grande , pero no he podido obtener una fórmula cerrada que se aplique a todos los . Se pueden obtener buenas aproximaciones reemplazando este problema con el problema análogo para variables uniformes continuas.P(g;n,m)P(g;n,m)nng,n,mg,n,m

Finalmente, la expectativa de se obtiene sumando su función de supervivencia a partir de :Gn,mGn,mg=0g=0

E(Gn,m)=mn+1g=0P(g;n,m).

E(Gn,m)=g=0mn+1P(g;n,m).

Figure 2: contour plot of expectation

Esta gráfica de contorno de la expectativa muestra contornos en , graduándose de oscuro a claro.2,4,6,,322,4,6,,32

whuber
fuente
Sugerencia: línea "Sea la variable aleatoria dada por el espacio más grande:", agregue el último espacio de . Su trama de expectativas coincide con mi simulación de Monte Carlo. Gn,mm+1an
AaronBecker