Usando bootstrap para obtener la distribución de muestreo del primer percentil

Tengo una muestra (de tamaño 250) de una población. No sé la distribución de la población.

La pregunta principal: quiero una estimación puntual del ^primer percentil de la población, y luego quiero un intervalo de confianza del 95% alrededor de mi estimación puntual.

Mi estimación puntual será la muestra del ^primer percentil. Lo denoto . $x$

Después de eso, trato de construir el intervalo de confianza alrededor de la estimación puntual. Me pregunto si tiene sentido usar bootstrap aquí. No tengo mucha experiencia con bootstrap, así que perdón si no uso la terminología adecuada, etc.

Así es como traté de hacerlo. Extraigo 1000 muestras aleatorias con reemplazo de mi muestra original. Obtengo el 1 ^st -percentile de cada uno de ellos. Por lo tanto, tengo 1000 puntos: "el ^1er- percentiles". Miro la distribución empírica de estos 1000 puntos. Denote la media de esto . Denote un "sesgo" de la siguiente manera: . Tomo el 2,5 ^º -percentile y 97,5 ^º percentil de la 1000 puntos para obtener el inferior y el extremo superior de lo que llamo un intervalo de confianza del 95% alrededor de la 1 ^st $x_{mean}$ $\text{bias}=x_{mean}-x$ -percentil de la muestra original. Denoto estos puntos y . $x_{0.025}$ $x_{0.975}$

El último paso restante es adaptar este intervalo de confianza para estar alrededor del ^1er percentil de la población en lugar de alrededor del ^1er percentil de la muestra original . Por lo tanto, tomo como el extremo inferior y como el extremo superior del intervalo de confianza del 95% alrededor de la estimación puntual de la población 1 $x-\text{bias}-(x_{mean}-x_{0.025})$ $x-\text{bias}+(x_{0.975}-x_{mean})$ ^st -percentile. Este último intervalo es lo que estaba buscando.

Un punto crucial , en mi opinión, es si tiene sentido usar bootstrap para el ^primer percentil, que está bastante cerca de la cola de la distribución subyacente desconocida de la población. Sospecho que podría ser problemático; piense en usar bootstrap para construir un intervalo de confianza en torno a un mínimo (o un máximo).

¿Pero tal vez este enfoque es defectuoso? Por favor hagamelo saber.

EDITAR:

$x-\text{bias}$

$x$ $x-(x_{mean}-x_{0.025})$ $x+(x_{0.975}-x_{mean})$

Entonces, ¿tiene algún sentido suponer que el ^primer percentil de la muestra es una estimación sesgada del ^primer percentil de la población ? Y si no, ¿es correcta mi solución alternativa?

confidence-interval bootstrap quantiles extreme-value Richard Hardy
fuente

Esto no aborda directamente la pregunta de arranque, pero podría ser útil para usted: onlinecourses.science.psu.edu/stat414/node/231

shadowtalker

$n$ $1 - (1-1/n)^n \sim 1 - {\rm exp}(-1) = 63.2\%$ ${\rm exp}(-1) - {\rm exp}(-2)=23.3\%$

$n\to\infty$

StasK
fuente

La respuesta es útil, pero me gustaría tener una idea de cuán cerca está el primer percentil al mínimo con respecto al comportamiento de arranque. Supongo que en muestras muy grandes el primer percentil puede considerarse "lejos" del mínimo y los problemas enumerados anteriormente pueden ignorarse, mientras que en muestras pequeñas el primer percentil será el mínimo en sí mismo y los problemas serán muy importantes. Por lo tanto, estamos en algún punto intermedio. Supongo que mi tamaño de muestra de 250 observaciones debería considerarse bastante pequeño a este respecto.

Richard Hardy

Usando bootstrap para obtener la distribución de muestreo del primer percentil

Respuestas: