¿Cuántos de los términos más grandes ensuma hasta la mitad del total?

Considere donde son iid y se mantiene el CLT. ¿Cuántos de los términos más importantes suman la mitad de la suma total? Por ejemplo, 10 + 9 + 8 (10 + 9 + 8 + 1) / 2: el 30% de los términos alcanzan aproximadamente la mitad del total. $\sum_{i=1}^N |X_i|$ $X_1, \ldots, X_N$

$\approx$ $\dots$

Defina
$\qquad\text{sumbiggest( j}; X_1 \dots X_N ) \equiv \text{sum of the j biggest of } |X_1| \dots |X_N|$
$\qquad\text{halfsum}( N ) \equiv \text{the smallest j such that sumbiggest( j )} \approx \text{sumbiggest}( N ) / 2 .$

¿Hay un resultado asintótico general para halfsum ( )? Una derivación simple e intuitiva sería buena. $N, \mu, \sigma$

(Un poco de Monte Carlo sugiere que a veces la mitad de la suma ( ) / 4 más o menos; es decir, el 1/4 más grande de la suma hasta la mitad del total. Obtengo 0.24 para la mitad normal, 0.19 para exponencial, para = 20, 50, 100.) $N$ $\approx N$
$X_i$
$N$ $N$ $N$

central-limit-theorem asymptotics denis
fuente

No esperes un resultado universal tipo CLT. Por ejemplo, la respuesta para las variables uniformes (0,1) será muy diferente de la respuesta para las variables uniformes (1000,1001).

whuber

Correcto, halfsum, por supuesto, dependerá de la media y el SD. Pero ¿por qué ~ N / 5 para exponencial?

denis

Asintóticamente, Denis, el límite para la media suma será el valor para el cual donde es el pdf para; la pregunta pide ( es el cdf para ). En el caso de la distribución uniforme se obtiene la respuesta de @ Dilip; para un exponencial, .

x

$x$

\int_{0}^{x} t f (t) d t = 1 / 2

$\int_0^x t f(t)dt = 1/2$

f

$f$

| X_{i} |

$|X_i|$

N (1 - F (x))

$N(1-F(x))$

F

$F$

| X_{i} |

$|X_i|$

[0, 1]

$[0,1]$

x \approx 0.186682 N \approx N / 5

$x\approx 0.186682 N \approx N/5$

whuber

Respuestas:

No, no hay un resultado asintótico general. Sea el orden , donde es el más grande. $x_{[1]} \dots x_{[N]}$ $x_i$ $x_{[1]}$

Considere los siguientes dos ejemplos:

1) . Claramente el CLT se mantiene. Solo necesita observación para. $P(x=0) = 1$ $M=1$ $\sum_{j=1}^M|x_{[j]}| \ge \frac{1}{2} \sum_N|x_i|$

2) . Claramente el CLT se mantiene. Necesita observaciones para. $P(x=1) = 1$ $M=\lceil N/2\rceil$ $\sum_{j=1}^M|x_{[j]}| \ge \frac{1}{2} \sum_N|x_i|$

Para un ejemplo no trivial, la distribución de Bernoulli:

3) . Una vez más se mantiene el CLT. Necesita de las observaciones para cumplir con sus condiciones. Al variar entre 0 y 1, puede acercarse lo más posible al ejemplo 1 o al ejemplo 2. $P(x=1) = p,\space P(x=0) = 1-p$ $\lceil pN/2\rceil$ $p$

jbowman
fuente

De hecho, es evidente que la respuesta puede estar entre y , pero eso no implica la inexistencia de un resultado general. Lo que sí implica es que deberíamos considerar respuestas donde la fracción depende de algunas propiedades de la distribución subyacente, como su media y DE. Esos son suficientes, junto con el CLT, para proporcionar información específica y cuantitativa sobre cómo se distribuyen las comparación con su suma, por lo que es razonable esperar ese resultado.

0

$0$

N / 2

$N/2$

x [i]

$x[i]$

whuber

Aquí hay un argumento crudo que da una estimación ligeramente diferente para variables aleatorias distribuidas uniformemente. Supongamos que son variables aleatorias continuas distribuidas uniformemente en . Entonces, tiene un valor medio . Suponga que por una coincidencia sorprendente y totalmente increíble, la suma es exactamente igual a . Por lo tanto, queremos estimar cuántos de los valores más grandes de suman o más. Ahora, el histograma de muestras ( muy grandes) extraídas de la distribución uniforme es aproximadamente plano de a $X_i$ $[0,1]$ $\sum_i X_i$ $N/2$ $N/2$ $X$ $N/4$ $N$ $N$ $U[0,1]$ $0$ $1$ y, por lo tanto, para cualquier , , hay muestras distribuidas aproximadamente de manera uniforme entre a . Estas muestras tienen un valor promedio y una suma igual a . La suma excede para . Entonces, la suma de muestras más grandes excede . $x$ $0 < x < 1$ $(1-x)N$ $x$ $1$ $(1+x)/2$ $(1-x)N(1+x)/2) = (1-x^2)N/2$ $N/4$ $x \leq 1/\sqrt{2}$ $(1-1/\sqrt{2})N \approx 0.3N$ $N/4$

Podrías intentar generalizar esto un poco. Si , entonces para cualquier dado , queremos que sea tal que donde sea normal con media y varianza . Por lo tanto, condicionado a un valor de , . Multiplique por la densidad de e integre (de a ) para encontrar el número promedio de muestras más grandes que excederá la mitad de la suma aleatoria. $\sum_i X_i = Y$ $Y$ $x$ $(1-x^2)N/2 = Y/2$ $Y$ $N/2$ $N/12$ $Y$ $x = \sqrt{1-(Y/N)}$ $Y$ $Y=0$ $Y=N$

Dilip Sarwate
fuente

La distancia entre dos puntos restringidos para estar en el intervalo no puede distribuirse exponencialmente porque la distancia debe ser inferior a mientras que una variable aleatoria exponencial toma valores en . Lo que es cierto es que si son variables aleatorias exponenciales independientes, luego condicionadas a , las estadísticas de orden se distribuyen uniformemente en . Consulte, por ejemplo, esta pregunta y respuesta en las matemáticas del sitio complementario. (continuación)

(0, 1)

$(0,1)$

1

$1$

(0, \infty)

$(0,\infty)$

Y_{1}, Y_{2}, \dots, Y_{n + 1}

$Y_1, Y_2, \ldots, Y_{n+1}$

Y_{max} = α

$Y_{\max} = \alpha$

Y_{(1)}, Y_{(2)}, \dots, Y_{(n)}

$Y_{(1)}, Y_{(2)}, \ldots, Y_{(n)}$

(0, α)

$(0, \alpha)$

Dilip Sarwate

En cualquier caso, mi argumento no usa las distancias entre las muestras ordenadas de la distribución uniforme.

Dilip Sarwate

Tienes razón, te he entendido mal. Como pregunta secundaria, ¿no están las piezas entre puntos aleatorios uniformes distribuidos exponencialmente, después de la escala, lo contrario de su q + a? [La regla del palo roto del Proyecto de Demostraciones Wolfram] ( demonstrations.wolfram.com/BrokenStickRule ) parece exponencial, ¿debe ser fácil? prueba.

denis

Haga su pregunta secundaria como una pregunta separada.

Dilip Sarwate

Comenzó, luego vio la distribución de probabilidad de las longitudes de fragmentos , podría comentar allí.

denis

Supongamos que X solo tiene valores positivos para deshacerse del valor absoluto.

Sin una prueba exacta, creo que tienes que resolver k

$(1-F_{X}(k))E(X|X>=k)= \frac{1}{2} E(X)$ con F siendo la función de distribución acumulativa para X

y luego la respuesta se tomando los valores más altos de . $n(1-F_X(k))$

Mi lógica es que, de forma asimétrica, la suma de todos los valores superiores a k debería ser aproximadamente

$n(1-F_{X}(k))E(X|X>=k)$

y asimétricamente la mitad de la suma total es aproximadamente

$\frac{1}{2}nE(X)$ .

La simulación numérica muestra que el resultado se cumple para el caso uniforme (uniforme en ) donde y obtengo . No estoy seguro de si el resultado siempre se cumple o si se puede simplificar aún más, pero creo que realmente depende de la función de distribución F. $[0,1]$ $F(k)=k$ $k=\sqrt(\frac{1}{2})$

Erik
fuente