¿Cuántos de los términos más grandes ensuma hasta la mitad del total?

11

Considere donde son iid y se mantiene el CLT. ¿Cuántos de los términos más importantes suman la mitad de la suma total? Por ejemplo, 10 + 9 + 8 (10 + 9 + 8 + 1) / 2: el 30% de los términos alcanzan aproximadamente la mitad del total.X 1 , ... , X N...i=1N|Xi|X1,,XN

Defina
sumbiggest( j;X1XN)sum of the j biggest of |X1||XN|
halfsum(N)the smallest j such that sumbiggest( j )sumbiggest(N)/2.

¿Hay un resultado asintótico general para halfsum ( )? Una derivación simple e intuitiva sería buena.N,μ,σ

(Un poco de Monte Carlo sugiere que a veces la mitad de la suma ( ) / 4 más o menos; es decir, el 1/4 más grande de la suma hasta la mitad del total. Obtengo 0.24 para la mitad normal, 0.19 para exponencial, para = 20, 50, 100.)NN
Xi
NNN

denis
fuente
3
No esperes un resultado universal tipo CLT. Por ejemplo, la respuesta para las variables uniformes (0,1) será muy diferente de la respuesta para las variables uniformes (1000,1001).
whuber
Correcto, halfsum, por supuesto, dependerá de la media y el SD. Pero ¿por qué ~ N / 5 para exponencial?
denis
2
Asintóticamente, Denis, el límite para la media suma será el valor para el cual donde es el pdf para; la pregunta pide ( es el cdf para ). En el caso de la distribución uniforme se obtiene la respuesta de @ Dilip; para un exponencial, . x 0 t f ( t ) d t = 1 / 2 f | X i | N ( 1 - F ( x ) ) F | X i | [ 0 , 1 ] x 0.186682 N N / 5x0xtf(t)dt=1/2f|Xi|N(1F(x))F|Xi|[0,1]x0.186682NN/5
whuber

Respuestas:

2

No, no hay un resultado asintótico general. Sea el orden , donde es el más grande. x i x [ 1 ]x[1]x[N]xix[1]

Considere los siguientes dos ejemplos:

1) . Claramente el CLT se mantiene. Solo necesita observación para. M = 1 M j = 1 | x [ j ] | 1P(x=0)=1M=1j=1M|x[j]|12N|xi|

2) . Claramente el CLT se mantiene. Necesita observaciones para.P(x=1)=1M=N/2j=1M|x[j]|12N|xi|

Para un ejemplo no trivial, la distribución de Bernoulli:

3) . Una vez más se mantiene el CLT. Necesita de las observaciones para cumplir con sus condiciones. Al variar entre 0 y 1, puede acercarse lo más posible al ejemplo 1 o al ejemplo 2.P(x=1)=p, P(x=0)=1ppN/2p

jbowman
fuente
44
De hecho, es evidente que la respuesta puede estar entre y , pero eso no implica la inexistencia de un resultado general. Lo que sí implica es que deberíamos considerar respuestas donde la fracción depende de algunas propiedades de la distribución subyacente, como su media y DE. Esos son suficientes, junto con el CLT, para proporcionar información específica y cuantitativa sobre cómo se distribuyen las comparación con su suma, por lo que es razonable esperar ese resultado. 0N/2x[i]
whuber
1

Aquí hay un argumento crudo que da una estimación ligeramente diferente para variables aleatorias distribuidas uniformemente. Supongamos que son variables aleatorias continuas distribuidas uniformemente en . Entonces, tiene un valor medio . Suponga que por una coincidencia sorprendente y totalmente increíble, la suma es exactamente igual a . Por lo tanto, queremos estimar cuántos de los valores más grandes de suman o más. Ahora, el histograma de muestras ( muy grandes) extraídas de la distribución uniforme es aproximadamente plano de aXi[0,1]iXiN/2N/2XN/4NNU[0,1]01y, por lo tanto, para cualquier , , hay muestras distribuidas aproximadamente de manera uniforme entre a . Estas muestras tienen un valor promedio y una suma igual a . La suma excede para . Entonces, la suma de muestras más grandes excede .x0<x<1(1x)Nx1(1+x)/2(1x)N(1+x)/2)=(1x2)N/2N/4x1/2(11/2)N0.3NN/4

Podrías intentar generalizar esto un poco. Si , entonces para cualquier dado , queremos que sea ​​tal que donde sea ​​normal con media y varianza . Por lo tanto, condicionado a un valor de , . Multiplique por la densidad de e integre (de a ) para encontrar el número promedio de muestras más grandes que excederá la mitad de la suma aleatoria.iXi=YYx(1x2)N/2=Y/2YN/2N/12Yx=1(Y/N)YY=0Y=N

Dilip Sarwate
fuente
La distancia entre dos puntos restringidos para estar en el intervalo no puede distribuirse exponencialmente porque la distancia debe ser inferior a mientras que una variable aleatoria exponencial toma valores en . Lo que es cierto es que si son variables aleatorias exponenciales independientes, luego condicionadas a , las estadísticas de orden se distribuyen uniformemente en . Consulte, por ejemplo, esta pregunta y respuesta en las matemáticas del sitio complementario. (continuación)(0,1)1(0,)Y1,Y2,,Yn+1Ymax=α ( 0 , α )Y(1),Y(2),,Y(n)(0,α)
Dilip Sarwate
En cualquier caso, mi argumento no usa las distancias entre las muestras ordenadas de la distribución uniforme.
Dilip Sarwate
Tienes razón, te he entendido mal. Como pregunta secundaria, ¿no están las piezas entre puntos aleatorios uniformes distribuidos exponencialmente, después de la escala, lo contrario de su q + a? [La regla del palo roto del Proyecto de Demostraciones Wolfram] ( demonstrations.wolfram.com/BrokenStickRule ) parece exponencial, ¿debe ser fácil? prueba.
denis
Haga su pregunta secundaria como una pregunta separada.
Dilip Sarwate
Comenzó, luego vio la distribución de probabilidad de las longitudes de fragmentos , podría comentar allí.
denis
0

Supongamos que X solo tiene valores positivos para deshacerse del valor absoluto.

Sin una prueba exacta, creo que tienes que resolver k

(1FX(k))E(X|X>=k)=12E(X) con F siendo la función de distribución acumulativa para X

y luego la respuesta se tomando los valores más altos de .n(1FX(k))

Mi lógica es que, de forma asimétrica, la suma de todos los valores superiores a k debería ser aproximadamente

n(1FX(k))E(X|X>=k)

y asimétricamente la mitad de la suma total es aproximadamente

12nE(X) .

La simulación numérica muestra que el resultado se cumple para el caso uniforme (uniforme en ) donde y obtengo . No estoy seguro de si el resultado siempre se cumple o si se puede simplificar aún más, pero creo que realmente depende de la función de distribución F.F ( k ) = k k = [0,1]F(k)=kk=(12)

Erik
fuente