Sea una secuencia de variables aleatorias iid muestreadas de una distribución estable alfa , con parámetros . α = 1.5 ,
Ahora considere la secuencia , donde , para . Y j + 1 = X 3 j + 1 X 3 j + 2 X 3 j + 3 - 1 j = 0 , … , n - 1
Quiero estimar el percentil .
Mi idea es realizar una especie de simulación de Montecarlo:
l = 1;
while(l < max_iterations)
{
Generate $X_1, X_2, \ldots, X_{3n}$ and compute $Y_1, Y_2, \ldots, Y_{n}$;
Compute $0.01-$percentile of current repetition;
Compute mean $0.01-$percentile of all the iterations performed;
Compute variance of $0.01-$percentile of all the iterations performed;
Calculate confidence interval for the estimate of the $0.01-$percentile;
if(confidence interval is small enough)
break;
}
Llamando a la media de todos los percentiles de la muestra calculados como y su varianza , para calcular el intervalo de confianza apropiado para , recurro a la forma fuerte del teorema del límite central :- μ n σ 2 n μ
Sea una secuencia de variables aleatorias iid con y . Defina la media de muestra como . Entonces, tiene una distribución normal estándar limitante, es decir, E [ X i ] = μ 0 < V [ X i ] = σ 2 < ∞ μ n = ( 1 / n ) Σ n i = 1 X i ( μ n - μ ) / √μ n -μ
y el teorema de Slutksy para concluir que
Entonces un -confidence intervalo para esμ
z1-α/2(1-α/2)
Preguntas:
1) ¿Es correcto mi enfoque? ¿Cómo puedo justificar la aplicación del CLT? Quiero decir, ¿cómo puedo demostrar que la varianza es finita? (¿Tengo que mirar la varianza de ? Porque no creo que sea finita ...)
2) ¿Cómo puedo demostrar que el promedio de todos los percentiles muestra calculados converge al valor verdadero del percentil ? (Debería usar estadísticas de pedidos, pero no estoy seguro de cómo proceder; se agradecen las referencias).0.01 -
Respuestas:
La varianza de no es finita.Y Esto se debe a que una variable estable alfa con 3/2 (una distribución de Holtzmark ) tiene una expectativa finita pero su varianza es infinita. Si tuviera una varianza finita , entonces al explotar la independencia de y la definición de varianza podríamos calcularX α=3/2 μ Y σ2 Xi
Esta ecuación cúbica en tiene al menos una solución real (y hasta tres soluciones, pero no más), lo que implica que sería finita, pero no lo es. Esta contradicción prueba el reclamo.Var(X) Var(X)
Pasemos a la segunda pregunta.
Cualquier cuantil de muestra converge con el verdadero cuantil a medida que la muestra crece. Los siguientes párrafos prueban este punto general.
Sea la probabilidad asociada (o cualquier otro valor entre y , exclusivo). Escriba para la función de distribución, de modo que sea el cuantil .q=0.01 0 1 F Zq=F−1(q) qth
Todo lo que debemos suponer es que (la función cuantil) es continua. Esto nos asegura que para cualquier hay probabilidades y para las cualesF−1 ϵ>0 q−<q q+>q
y que como , el límite del intervalo es .ϵ→0 [q−,q+] {q}
Considere cualquier muestra iid de tamaño . El número de elementos de esta muestra que son menores que tiene una distribución Binomial , porque cada elemento independientemente tiene una posibilidad de ser menor que . El teorema del límite central (¡el habitual!) Implica que para suficientemente grande , el número de elementos menores que viene dado por una distribución Normal con media y varianza (a una aproximación arbitrariamente buena). Deje que el CDF de la distribución normal estándar sea . La posibilidad de que esta cantidad excedaZ q - ( q - , n ) q - Z q - n Z q - n q - n q - ( 1 - q - )n Zq− (q−,n) q− Zq− n Zq− nq− nq−(1−q−) Φ nq por lo tanto es arbitrariamente cerca de
Debido a que el argumento en en el lado derecho es un múltiplo fijo de , crece arbitrariamente grande a medida que crece. Como es un CDF, su valor se aproxima arbitrariamente a , lo que muestra que el valor límite de esta probabilidad es cero.√Φ nΦ1n−−√ n Φ 1
En palabras: en el límite, es casi seguro que de los elementos de muestra no sean menores que . Un argumento análogo demuestra que es casi seguro que de los elementos de la muestra no son mayores que . En conjunto, esto implica que el cuantil de una muestra suficientemente grande es extremadamente probable que se encuentre entre y .Z q - n q Z q + q Z q - ϵ Z q + ϵnq Zq− nq Zq+ q Zq−ϵ Zq+ϵ
Eso es todo lo que necesitamos para saber que la simulación funcionará. Puede elegir cualquier grado deseado de precisión y nivel de confianza y saber que para un tamaño de muestra suficientemente grande , el estadístico de orden más cercano a en esa muestra tendrá una posibilidad de al menos de estar dentro de del verdadero cuantil .1 - α n n q 1 - α ϵ Z qϵ 1−α n nq 1−α ϵ Zq
Una vez establecido que una simulación funcionará, el resto es fácil. Los límites de confianza pueden obtenerse a partir de los límites para la distribución binomial y luego transformarse nuevamente. Se puede encontrar una explicación más detallada (para el cuantil , pero generalizando a todos los cuantiles) en las respuestas en Teorema del límite central para medianas de muestra .q=0.50
El cuantil de es negativo. Su distribución de muestreo es muy sesgada. Para reducir la inclinación, Esta figura muestra un histograma de los logaritmos de los negativos de 1.000 muestras simuladas de valores de .Y n = 300 Yq=0.01 Y n=300 Y
fuente