Adonde ir: ¿alguien puede dar una explicación simple para comenzar?

9

A pesar de varios intentos de leer sobre bootstrapping, siempre parezco golpear una pared de ladrillos. Me pregunto si alguien puede dar una definición razonablemente no técnica de bootstrapping.

Sé que no es posible en este foro proporcionar suficientes detalles para permitirme entenderlo completamente, ¡pero un empujón suave en la dirección correcta con el objetivo principal y el mecanismo de arranque sería muy apreciado! Gracias.

pmgjones
fuente

Respuestas:

8

La entrada de Wikipedia sobre Bootstrapping es realmente muy buena:

http://en.wikipedia.org/wiki/Bootstrapping_%28statistics%29

La razón más común por la que se aplica bootstrapping es cuando se desconoce la forma de la distribución subyacente de la que se toma una muestra. Tradicionalmente, los estadísticos suponen una distribución normal (por muy buenas razones relacionadas con el teorema del límite central), pero las estadísticas (como la desviación estándar, los intervalos de confianza, los cálculos de potencia, etc.) estimadas mediante la teoría de distribución normal solo son estrictamente válidas si la distribución de la población subyacente es normal.

Al volver a muestrear repetidamente la muestra, el bootstrapping permite estimaciones que son independientes de la distribución. Tradicionalmente, cada "remuestreo" de la muestra original selecciona aleatoriamente el mismo número de observaciones que en la muestra original. Sin embargo, estos se seleccionan con reemplazo. Si la muestra tiene N observaciones, cada muestra de bootstrap tendrá N observaciones, con muchas de las muestras originales repetidas y muchas excluidas.

El parámetro de interés (por ejemplo, odds ratio, etc.) puede estimarse a partir de cada muestra de arranque. La repetición del bootstrap, digamos 1000 veces, permite una estimación de la "mediana" y el intervalo de confianza del 95% en la estadística (por ejemplo, odds ratio) seleccionando el percentil 2.5, 50 y 97.5.

Tilacoleo
fuente
8

Recientemente, el científico estadounidense tuvo un buen artículo de Cosma Shalizi sobre el bootstrap, que es bastante fácil de leer y le brinda lo esencial para comprender el concepto.

ars
fuente
7

En términos muy generales: la intuición, así como el origen del nombre ("levantarse con las botas"), derivan de la observación de que al usar las propiedades de una muestra para hacer inferencias sobre una población (el problema "inverso" de la estadística inferencia), esperamos errar. Para descubrir la naturaleza de ese error, trate la muestra en sí como una población por derecho propio y estudie cómo funciona su procedimiento de inferencia cuando extrae muestras de él. Eso es un problema "hacia adelante": usted sabe todo acerca de su muestra- qua-población y no tengo que adivinar nada al respecto. Su estudio sugerirá (a) la medida en que su procedimiento de inferencia puede estar sesgado y (b) el tamaño y la naturaleza del error estadístico de su procedimiento. Por lo tanto, use esta información para ajustar sus estimaciones originales. En muchas situaciones (pero definitivamente no en todas), el sesgo ajustado es asintóticamente mucho más bajo.

Una idea proporcionada por esta descripción esquemática es que el bootstrapping no requiere simulación o submuestreo repetido: simplemente son formas omnibus, manejables computacionalmente para estudiar cualquier tipo de procedimiento estadístico cuando se conoce a la población. Existen muchas estimaciones de arranque que se pueden calcular matemáticamente.

Esta respuesta le debe mucho al libro de Peter Hall "The Bootstrap and Edgeworth Expansion" (Springer 1992), especialmente su descripción del "Principio principal" de bootstrapping.

whuber
fuente
Me gusta este enfoque "original" (wrt. Otras entradas). Aún así, siempre encuentro difícil explicar por qué funciona en la práctica de arranque ...
CHL
4

El wiki sobre bootstrapping ofrece la siguiente descripción:

Bootstrapping permite recopilar muchas versiones alternativas de la estadística única que normalmente se calcularía a partir de una muestra. Por ejemplo, supongamos que estamos interesados ​​en la altura de las personas en todo el mundo. Como no podemos medir a toda la población, solo tomamos muestras de una pequeña parte de ella. A partir de esa muestra, solo se puede obtener un valor de una estadística, es decir, una media o una desviación estándar, etc., y por lo tanto no vemos cuánto varía esa estadística. Cuando usamos bootstrapping, extraemos aleatoriamente una nueva muestra de n alturas de los N datos muestreados, donde cada persona puede seleccionarse la mayoría de las veces t. Al hacer esto varias veces, creamos una gran cantidad de conjuntos de datos que podríamos haber visto y calculamos la estadística para cada uno de estos conjuntos de datos. Así obtenemos una estimación de la distribución de la estadística.

Proporcionaré más detalles si puede aclarar qué parte de la descripción anterior no comprende.


fuente
4

Me gusta pensar de la siguiente manera: si obtiene un conjunto de datos de muestra aleatoria de una población, entonces presumiblemente esa muestra tendrá características que coinciden aproximadamente con las de la población fuente. Entonces, si está interesado en obtener intervalos de confianza en una característica particular de la distribución, su asimetría, por ejemplo, puede tratar la muestra como una pseudopoblación de la que puede obtener muchos conjuntos de pseudomuestras aleatorias, calculando la valor de la característica de interés en cada uno. La suposición de que la muestra original coincide aproximadamente con la población también significa que puede obtener las pseudomuestras al tomar muestras de la pseudopoblación "con reemplazo" (por ejemplo, muestrea un valor, lo registra y luego lo vuelve a colocar; por lo tanto, cada valor tiene la posibilidad de ser observado varias veces).

Mike Lawrence
fuente
3

Bootstrap es esencialmente una simulación de experimento repetido; supongamos que tiene una caja con bolas y desea obtener un tamaño promedio de una bola, por lo que debe dibujar algunas de ellas, medirlas y tomar una media. Ahora desea repetirlo para obtener la distribución, por ejemplo, para obtener una desviación estándar, pero descubrió que alguien robó la caja.
Lo que se puede hacer ahora es usar lo que tiene: esta serie de mediciones. La idea es colocar las bolas en la nueva caja y simular el experimento original dibujando la misma cantidad de bolas con reemplazo, ambas para tener el mismo tamaño de muestra y cierta variabilidad. Ahora, esto se puede replicar muchas veces para obtener una serie de medios que finalmente se pueden usar para aproximar la distribución media.


fuente
3

Esta es la esencia del bootstrapping: tomar diferentes muestras de sus datos, obtener una estadística para cada muestra (por ejemplo, la media, la mediana, la correlación, el coeficiente de regresión, etc.) y usar la variabilidad en la estadística entre muestras para indicar algo sobre El error estándar y los intervalos de confianza para la estadística. - Bootstrapping y el paquete de arranque en R

Jeromy Anglim
fuente