¿Por qué el número de variables uniformes continuas en (0,1) necesarias para que su suma exceda una tiene media

14

Vamos a sumar un flujo de variables aleatorias, ; dejemos que sea ​​el número de términos que necesitamos para que el total exceda uno, es decir, es el número más pequeño tal queY YXiiidU(0,1)YY

X1+X2++XY>1.

¿Por qué la media de son iguales a la constante de Euler ?eYe

E(Y)=e=10!+11!+12!+13!+
Lepisma
fuente
Estoy publicando esto en el espíritu de una pregunta de autoestudio, aunque creo que vi esta pregunta por primera vez hace más de una década. No puedo recordar cómo lo respondí en ese momento, aunque estoy seguro de que no se me ocurrió cuando vi esta propiedad mencionada en el hilo Aproximado e usando la simulación de Monte Carlo . Como sospecho que esta es una pregunta de ejercicio bastante común, he optado por presentar un boceto en lugar de una solución completa, ¡aunque supongo que la "advertencia de spoiler" principal pertenece a la pregunta misma!
Silverfish
Sigo muy interesado en enfoques alternativos; Sé que esto se incluyó como una pregunta en la Teoría de la probabilidad de Gnedenko (originalmente en ruso pero ampliamente traducida), pero no sé qué solución se esperaba allí, o se planteó en otro lugar.
Silverfish
1
Yo escribí una solución de simulación en MATLAB usando el método simplex. No sabía sobre el enlace a los simplexes, es tan inesperado.
Aksakal

Respuestas:

14

Primera observación: Y tiene un CDF más agradable que PMF

La función de masa de probabilidad pY(n) es la probabilidad de que n sea ​​"solo lo suficiente" para que el total exceda la unidad, es decir, X1+X2+Xn excede uno, mientras que X1++Xn1 sí no.

La distribución acumulativa FY(n)=Pr(Yn) simplemente requiere que n sea ​​"suficiente", es decir, i=1nXi>1 sin restricción en cuanto a cuánto. Esto parece un evento mucho más simple para tratar con la probabilidad de.

Segunda observación: Y toma valores enteros no negativos para que E(Y) pueda escribirse en términos del CDF

Claramente Y sólo puede tomar valores en {0,1,2,} , por lo que podemos escribir su media en términos del CDF complementaria , F¯Y .

E(Y)=n=0F¯Y(n)=n=0(1FY(n))

De hecho, Pr(Y=0) y Pr(Y=1) son ambos cero, por lo que los dos primeros términos son E(Y)=1+1+ .

En cuanto a los términos posteriores, si FY(n) es la probabilidad de que i=1nXi>1 , ¿de qué evento es F¯Y(n) la probabilidad de?

Tercera observación: el (hiper) volumen de un simple es 1n1n!

El -simplex que tengo en mente ocupa el volumen bajo una unidad estándar ( n - 1 ) -simplex en el todo-positivo ortante de R n : es la envolvente convexa de ( n + 1 ) vértices, en particular, el origen más los vértices de la unidad ( n - 1 ) -simplex en ( 1 , 0 , 0 , ... ) , ( 0 , 1 , 0 , ...n(n1)Rn(n+1)(n1)(1,0,0,) etc.(0,1,0,)

volumes of 2-simplex and 3-simplex

Por ejemplo, el 2-simplex anterior con tiene área 1x1+x21 y el 3-simplex conx1+x2+x31tiene volumen112x1+x2+x31 .16

Para obtener una prueba que procede evaluando directamente una integral para la probabilidad del evento descrito por , y enlaces a otros dos argumentos, vea este hilo Math SE . El hilo relacionado también puede ser de interés: ¿Existe una relación entre e y la suma de los volúmenes n -simplexes?F¯Y(n)en

Lepisma
fuente
1
Este es un enfoque geométrico interesante y fácil de resolver de esta manera. Hermosa. Aquí está la ecuación para un volumen de un simplex. No creo que pueda haber una solución más elegante, francamente
Aksakal
1
+1 También puede obtener la distribución completa de de cualquiera de los enfoques en mi publicación en stats.stackexchange.com/questions/41467/… . Y
whuber
Si me topé con esta solución, no hay forma de que me obliguen a hacerlo de otra manera en una escuela :)
Aksakal
11

Fix . Sea U i = X 1 + X 2 + + X in1 sea ​​las partes fraccionarias de las sumas parciales para i = 1 , 2 , ... , n . La uniformidad independiente de X 1 y X i + 1 garantiza que U i + 1 es tan probable que exceda a U i como sea menor. Esto implica quetodos n !

Ui=X1+X2++Ximod1
i=1,2,,nX1Xi+1Ui+1Uin!Los ordenamientos de la secuencia son igualmente probables.(Ui)

Dada la secuencia , podemos recuperar la secuencia X 1 , X 2 ,U1,U2,,Un . Para ver cómo, note queX1,X2,,Xn

  • U1=X1 porque ambos están entre y 1 .01

  • Si , entonces X i + 1 = U iUi+1Ui .Xi+1=Ui+1Ui

  • De lo contrario, , de donde X i + 1 = U i + 1Ui+Xi+1>1 .Xi+1=Ui+1Ui+1

Hay exactamente una secuencia en la que ya está en orden creciente, en cuyo caso 1 > U n = X 1 + X 2 + + X n . Siendo uno de n ! secuencias igualmente probables, esto tiene una posibilidad de 1 / n ! de ocurrir. En todas las demás secuencias, al menos un paso de U i a U i + 1 está fuera de servicio. Esta es la suma de la X i tenía que ser igual o superior 1Ui1>Un=X1+X2++Xnn!1/n!UiUi+1Xi1. Así vemos que

Pr(Y>n)=Pr(X1+X2++Xn1)=Pr(X1+X2++Xn<1)=1n!.

Esto produce las probabilidades para toda la distribución de , ya que para la integral n 1Yn1

Pr(Y=n)=Pr(Y>n1)Pr(Y>n)=1(n1)!1n!=n1n!.

Además,

E(Y)=n=0Pr(Y>n)=n=01n!=e,

QED

whuber
fuente
I have read it a couple of times, and I almost get it... I posted a couple of questions in the Mathematics SE as a result of the e constant computer simulation. I don't know if you saw them. One of them came back before your kind explanation on Tenfold about the ceiling function of the 1/U(0,1) and the Taylor series. The second one was exactly about this topic, never got a response, until now...
Antoni Parellada
here and here.
Antoni Parellada
And could you add the proof with the uniform spacings as well?
Xi'an
@Xi'an Could you indicate more specifically what you mean by "uniform spacings" in this context?
whuber
I am referring to your Poisson process simulation via the uniform spacing, in the thread Approximate e using Monte Carlo Simulation for which I cannot get a full derivation.
Xi'an
6

In Sheldon Ross' A First Course in Probability there is an easy to follow proof:

Modifying a bit the notation in the OP, UiiidU(0,1) and Y the minimum number of terms for U1+U2++UY>1, or expressed differently:

Y=min{n:i=1nUi>1}

If instead we looked for:

Y(u)=min{n:i=1nUi>u}
for u[0,1], we define the f(u)=E[Y(u)], expressing the expectation for the number of realizations of uniform draws that will exceed u when added.

We can apply the following general properties for continuous variables:

E[X]=E[E[X|Y]]=E[X|Y=y]fY(y)dy

to express f(u) conditionally on the outcome of the first uniform, and getting a manageable equation thanks to the pdf of XU(0,1), fY(y)=1. This would be it:

(1)f(u)=01E[Y(u)|U1=x]dx

If the U1=x we are conditioning on is greater than u, i.e. x>u, E[Y(u)|U1=x]=1. If, on the other hand, x<u, E[Y(u)|U1=x]=1+f(ux), because we already have drawn 1 uniform random, and we still have the difference between x and u to cover. Going back to equation (1):

f(u)=1+0xf(ux)dx
, and with substituting w=ux we would have f(u)=1+0xf(w)dw.

If we differentiate both sides of this equation, we can see that:

f(u)=f(u)f(u)f(u)=1

with one last integration we get:

log[f(u)]=u+cf(u)=keu

We know that the expectation that drawing a sample from the uniform distribution and surpassing 0 is 1, or f(0)=1. Hence, k=1, and f(u)=eu. Therefore f(1)=e.

Antoni Parellada
fuente
I do like the manner in which this generalises the result.
Silverfish