La entrada de Wikipedia sobre Bootstrapping es realmente muy buena:
http://en.wikipedia.org/wiki/Bootstrapping_%28statistics%29
La razón más común por la que se aplica bootstrapping es cuando se desconoce la forma de la distribución subyacente de la que se toma una muestra. Tradicionalmente, los estadísticos suponen una distribución normal (por muy buenas razones relacionadas con el teorema del límite central), pero las estadísticas (como la desviación estándar, los intervalos de confianza, los cálculos de potencia, etc.) estimadas mediante la teoría de distribución normal solo son estrictamente válidas si la distribución de la población subyacente es normal.
Al volver a muestrear repetidamente la muestra, el bootstrapping permite estimaciones que son independientes de la distribución. Tradicionalmente, cada "remuestreo" de la muestra original selecciona aleatoriamente el mismo número de observaciones que en la muestra original. Sin embargo, estos se seleccionan con reemplazo. Si la muestra tiene N observaciones, cada muestra de bootstrap tendrá N observaciones, con muchas de las muestras originales repetidas y muchas excluidas.
El parámetro de interés (por ejemplo, odds ratio, etc.) puede estimarse a partir de cada muestra de arranque. La repetición del bootstrap, digamos 1000 veces, permite una estimación de la "mediana" y el intervalo de confianza del 95% en la estadística (por ejemplo, odds ratio) seleccionando el percentil 2.5, 50 y 97.5.
El wiki sobre bootstrapping ofrece la siguiente descripción:
Proporcionaré más detalles si puede aclarar qué parte de la descripción anterior no comprende.
fuente
Me gusta pensar de la siguiente manera: si obtiene un conjunto de datos de muestra aleatoria de una población, entonces presumiblemente esa muestra tendrá características que coinciden aproximadamente con las de la población fuente. Entonces, si está interesado en obtener intervalos de confianza en una característica particular de la distribución, su asimetría, por ejemplo, puede tratar la muestra como una pseudopoblación de la que puede obtener muchos conjuntos de pseudomuestras aleatorias, calculando la valor de la característica de interés en cada uno. La suposición de que la muestra original coincide aproximadamente con la población también significa que puede obtener las pseudomuestras al tomar muestras de la pseudopoblación "con reemplazo" (por ejemplo, muestrea un valor, lo registra y luego lo vuelve a colocar; por lo tanto, cada valor tiene la posibilidad de ser observado varias veces).
fuente
Bootstrap es esencialmente una simulación de experimento repetido; supongamos que tiene una caja con bolas y desea obtener un tamaño promedio de una bola, por lo que debe dibujar algunas de ellas, medirlas y tomar una media. Ahora desea repetirlo para obtener la distribución, por ejemplo, para obtener una desviación estándar, pero descubrió que alguien robó la caja.
Lo que se puede hacer ahora es usar lo que tiene: esta serie de mediciones. La idea es colocar las bolas en la nueva caja y simular el experimento original dibujando la misma cantidad de bolas con reemplazo, ambas para tener el mismo tamaño de muestra y cierta variabilidad. Ahora, esto se puede replicar muchas veces para obtener una serie de medios que finalmente se pueden usar para aproximar la distribución media.
fuente
fuente