Recientemente utilicé bootstrapping para estimar los intervalos de confianza para un proyecto. Alguien que no sabe mucho sobre estadísticas recientemente me pidió que explicara por qué funciona el bootstrapping, es decir, por qué volver a muestrear la misma muestra una y otra vez da buenos resultados. Me di cuenta de que aunque había pasado mucho tiempo entendiendo cómo usarlo, realmente no entiendo por qué funciona el bootstrapping.
Específicamente: si estamos tomando muestras de nuestra muestra, ¿cómo es que estamos aprendiendo algo sobre la población en lugar de solo sobre la muestra? Parece que hay un salto allí que es algo contrario a la intuición.
Aquí he encontrado algunas respuestas a esta pregunta que entiendo a medias. Particularmente este . Soy un "consumidor" de estadísticas, no un estadístico, y trabajo con personas que saben mucho menos de estadísticas que yo. Entonces, ¿alguien puede explicar, con un mínimo de referencias a teoremas, etc., el razonamiento básico detrás del bootstrap? Es decir, si tuviera que explicárselo a su vecino, ¿qué diría?
fuente
Respuestas:
La versión de longitud media que suelo dar es la siguiente:
Desea hacer una pregunta a una población pero no puede. Entonces tomas una muestra y le haces la pregunta. Ahora, cuán seguro debe estar de que la respuesta de la muestra está cerca de la respuesta de la población, obviamente depende de la estructura de la población. Una forma de aprender sobre esto es tomar muestras de la población una y otra vez, hacerles la pregunta y ver qué tan variables tienden a ser las respuestas de la muestra. Como esto no es posible, puede hacer algunas suposiciones sobre la forma de la población, o puede usar la información de la muestra que realmente tiene que aprender sobre ella.
Imagine que decide hacer suposiciones, por ejemplo, que es Normal, o Bernoulli o alguna otra ficción conveniente. Siguiendo la estrategia anterior, podría volver a aprender sobre cuánto puede variar la respuesta a su pregunta cuando se le pide una muestra, dependiendo de la muestra particular que haya obtenido generando repetidamente muestras del mismo tamaño que la que tiene y preguntándoles lo mismo pregunta. Eso sería sencillo en la medida en que elija supuestos computacionalmente convenientes. (De hecho, las suposiciones particularmente convenientes más las matemáticas no triviales pueden permitirle omitir por completo la parte de muestreo, pero aquí lo ignoraremos deliberadamente).
Esto parece una buena idea siempre que esté feliz de hacer las suposiciones. Imagina que no lo eres. Una alternativa es tomar la muestra que tiene y tomar muestras de ella. Usted puede hacer esto ya que la muestra tiene también una población, sólo una muy pequeña discreta uno; se parece al histograma de sus datos. El muestreo 'con reemplazo' es solo una forma conveniente de tratar la muestra como si fuera una población y tomar muestras de ella de una manera que refleje su forma.
Esto es algo razonable de hacer porque no solo es la muestra que tiene la mejor, sino la única información que tiene sobre el aspecto real de la población, sino también porque la mayoría de las muestras, si se eligen al azar, se parecen bastante a población de donde vinieron. En consecuencia, es probable que el tuyo también lo haga.
Para la intuición, es importante pensar en cómo podría aprender sobre la variabilidad agregando información muestreada que se genera de varias maneras y en varios supuestos. Ignorar por completo la posibilidad de soluciones matemáticas de forma cerrada es importante para aclarar esto.
fuente
+1 a @ConjugatePrior, solo quiero resaltar un punto que está implícito en su respuesta. La pregunta es: "si estamos tomando muestras de nuestra muestra, ¿cómo es que estamos aprendiendo algo sobre la población en lugar de solo sobre la muestra?" El remuestreo no se realiza para proporcionar una estimación de la distribución de la población; tomamos nuestra muestra como modelo de la población. Por el contrario, el remuestreo se realiza para proporcionar una estimación de la distribución muestral del estadístico muestral en cuestión.
fuente
Esta es probablemente una explicación más técnica dirigida a personas que entienden algunas estadísticas y matemáticas (cálculo, al menos). Aquí hay una diapositiva de un curso sobre bootstraps de encuestas que enseñé hace un tiempo:
Se necesitan algunas explicaciones, por supuesto. es el procedimiento para obtener la estadística de los datos existentes (o, para ser técnicamente precisos, un funcional de la función de distribución a números reales; por ejemplo, la media es , donde para la función de distribución de muestra , la se entiende como una masa de punto en un punto de muestra). En la población, denotada por , la aplicación de da el parámetro de interés . Ahora, hemos tomado una muestra (la primera flecha en la parte superior), y tenemos la función de distribución empírica - le aplicamos para obtener la estimaciónE [ X ] = ∫ x d F F n ( ) d F F ( ) T θ F n ( ) T θ nT E[X]=∫xdF Fn() dF F() T θ Fn() T θ^n . ¿Qué tan lejos está de , nos preguntamos? ¿Cuál es la distribución que la cantidad aleatoria puede tener alrededor de ? Este es el signo de interrogación en la esquina inferior izquierda del diagrama, y esta es la pregunta que el bootstrap intenta responder. Para reafirmar el punto de Gung, esta no es la pregunta sobre la población, sino la pregunta sobre una estadística particular y su distribución.θ θ^n θ
Si pudiéramos repetir nuestro procedimiento de muestreo, podríamos obtener esa distribución y aprender más. Bueno, eso generalmente está más allá de nuestras capacidades. Sin embargo, si
podemos esperar que el procedimiento de arranque funcione. Es decir, pretendemos que nuestra distribución es lugar de , y con eso podemos entretener todas las muestras posibles, y habrá tales muestras, lo que solo es práctico para . Permítanme repetirlo: el programa de arranque funciona para crear la distribución de muestreo de alrededor del parámetro "verdadero" , y esperamos que con las dos condiciones anteriores, esta distribución de muestreo sea informativa sobre la distribución de muestreo de alrededor de :Fn() F() nn n≤5 θ^∗n θ^n θ^n θ
Ahora, en lugar de ir solo en un sentido a lo largo de las flechas, y perder algo de información / precisión a lo largo de estas flechas, podemos regresar y decir algo sobre la variabilidad de alrededor de .θ^∗n θ^n
Las condiciones anteriores se explican con la mayor tecnicidad en el libro de Hall (1991) . La comprensión del cálculo que dije que puede ser necesaria como requisito previo para mirar esta diapositiva es la segunda suposición sobre la suavidad: en un lenguaje más formal, la funcional debe poseer una derivada débil. La primera condición es, por supuesto, una declaración asintótica: cuanto mayor sea su muestra, más cerca debe estar de ; y las distancias de a deben ser del mismo orden de magnitud que las de a . Estas condiciones pueden romperse, y se rompenT Fn F θ^∗n θ^n θ^n θ en una serie de situaciones prácticas con suficientes estadísticas extraños y / o esquemas de muestreo que no producen distribuciones empíricas que son lo suficientemente cerca de .F
Ahora, ¿de dónde provienen esas 1000 muestras, o el número mágico que sea? Proviene de nuestra incapacidad para extraer todas las muestras , por lo que solo tomamos un subconjunto aleatorio de estas. La flecha de "simulación" más a la derecha indica otra aproximación que estamos haciendo en nuestro camino para obtener la distribución de alrededor de , y es decir que nuestra distribución simulada de Monte Carlo de es una aproximación suficientemente buena de la distribución de bootstrap completa de around .nn θ^n θ θ^(∗r)n θ^∗n θ^n
fuente
Estoy respondiendo esta pregunta porque estoy de acuerdo en que es algo difícil de hacer y que hay muchas ideas falsas. Efron y Diaconis intentaron hacerlo en su artículo de Scientific American de 1983 y, en mi opinión, fracasaron. Ahora hay varios libros dedicados al bootstrap que hacen un buen trabajo. Efron y Tibshirani hacen un gran trabajo en su artículo en Statistical Science en 1986. Intenté especialmente hacer que Bootstrap fuera accesible para el profesional en mi libro de métodos de bootstrap y mi introdución para bootstrap con aplicaciones para el libro de R. Hall es excelente pero muy avanzada y teórica. . Tim Hesterberg ha escrito un gran capítulo complementario a uno de los libros introductorios de estadísticas de David Moore. El difunto Clifford Lunneborg tenía un buen libro. Chihara y Hesterberg recientemente publicaron un libro de estadística matemática de nivel intermedio que cubre el método de arranque y otros métodos de remuestreo. Incluso libros avanzados como Los de Lahiri o Shao y Tu dan buenas explicaciones conceptuales. A Manly le va bien con su libro que cubre las permutaciones y el bootstrap. Ya no hay razón para desconcertarse sobre el bootstrap. Es importante tener en cuenta que el bootstrap depende del principio de bootstrap "El muestreo con reemplazo se comporta en la muestra original de la misma manera que la muestra original se comporta en una población. Hay ejemplos en los que este principio falla. Es importante saber que el bootstrap No es la respuesta a todos los problemas estadísticos. s dan buenas explicaciones conceptuales. A Manly le va bien con su libro que cubre las permutaciones y el bootstrap. Ya no hay razón para desconcertarse sobre el bootstrap. Es importante tener en cuenta que el bootstrap depende del principio de bootstrap "El muestreo con reemplazo se comporta en la muestra original de la misma manera que la muestra original se comporta en una población. Hay ejemplos en los que este principio falla. Es importante saber que el bootstrap No es la respuesta a todos los problemas estadísticos. s dan buenas explicaciones conceptuales. A Manly le va bien con su libro que cubre las permutaciones y el bootstrap. Ya no hay razón para desconcertarse sobre el bootstrap. Es importante tener en cuenta que el bootstrap depende del principio de bootstrap "El muestreo con reemplazo se comporta en la muestra original de la misma manera que la muestra original se comporta en una población. Hay ejemplos en los que este principio falla. Es importante saber que el bootstrap No es la respuesta a todos los problemas estadísticos. El muestreo con reemplazo se comporta en la muestra original del mismo modo que la muestra original se comporta en una población. Hay ejemplos donde este principio falla. Es importante saber que el bootstrap no es la respuesta a todos los problemas estadísticos. El muestreo con reemplazo se comporta en la muestra original del mismo modo que la muestra original se comporta en una población. Hay ejemplos donde este principio falla. Es importante saber que el bootstrap no es la respuesta a todos los problemas estadísticos.
Aquí hay enlaces de Amazon a todos los libros que mencioné y más.
Estadística matemática con remuestreo y R
Métodos Bootstrap y su aplicación
Métodos de Bootstrap: una guía para profesionales e investigadores
Una introducción a los métodos de Bootstrap con aplicaciones a R
Métodos de remuestreo para datos dependientes
Aleatorización, Bootstrap y métodos de Monte Carlo en biología
Una introducción a Bootstrap
The Practice of Business Statistics Companion Capítulo 18: Métodos Bootstrap y pruebas de permutación
Análisis de datos por remuestreo: conceptos y aplicaciones
El Jackknife, el Bootstrap y otros planes de remuestreo
La navaja y Bootstrap
Pruebas de hipótesis de permutación, paramétrica y bootstrap de hipótesis
La expansión Bootstrap y Edgeworth
fuente
A través de bootstrapping, simplemente está tomando muestras una y otra vez del mismo grupo de datos (sus datos de muestra) para estimar cuán precisas son sus estimaciones sobre toda la población (lo que realmente existe en el mundo real).
Si tuviera que tomar una muestra y hacer estimaciones sobre la población real, es posible que no pueda estimar la precisión de sus estimaciones; solo tenemos una estimación y no hemos identificado cómo varía esta estimación con las diferentes muestras que podríamos haber encontrado.
Con bootstrapping, usamos esta muestra principal para generar múltiples muestras. Por ejemplo, si medimos el beneficio todos los días durante 1000 días, podríamos tomar muestras aleatorias de este conjunto. Podríamos obtener el beneficio de un día aleatorio, registrarlo, obtener el beneficio de otro día aleatorio (que podría ser el mismo día que antes: muestreo con reemplazo), registrarlo, y así sucesivamente, hasta que obtengamos un "nuevo" muestra de 1000 días (de la muestra original).
Esta muestra "nueva" no es idéntica a la muestra original; de hecho, podríamos generar varias muestras "nuevas" como se indicó anteriormente. Cuando observamos las variaciones en las medias y la estimación, podemos obtener una lectura sobre la precisión de las estimaciones originales.
Editar - en respuesta al comentario
Las muestras "más nuevas" no son idénticas a la primera y las nuevas estimaciones basadas en ellas variarán. Esto simula muestras repetidas de la población. Las variaciones en las estimaciones de las muestras "más nuevas" generadas por el bootstrap arrojarán una luz sobre cómo variarían las estimaciones de las muestras dadas las diferentes muestras de la población. De hecho, así es como podemos intentar medir la precisión de las estimaciones originales.
Por supuesto, en lugar de hacer bootstrapping, podría tomar varias muestras nuevas de la población, pero esto podría no ser factible.
fuente
Me doy cuenta de que esta es una vieja pregunta con una respuesta aceptada, pero me gustaría dar mi opinión sobre el método de arranque. De ninguna manera soy un experto (más un usuario de estadísticas, como OP) y agradezco cualquier corrección o comentario.
Me gusta ver bootstrap como una generalización del método jackknife. Entonces, supongamos que tiene una muestra S de tamaño 100 y calcule algún parámetro usando una estadística T (S). Ahora, le gustaría saber un intervalo de confianza para esta estimación puntual. En caso de que no tenga un modelo y una expresión analítica para el error estándar, puede continuar y eliminar un elemento de la muestra, creando una submuestra con el elemento que . Ahora puede calcular y obtener 100 nuevas estimaciones del parámetro a partir de las cuales puede calcular, por ejemplo, error estándar y crear un intervalo de confianza. Este es el método de navaja JK-1. T ( S i )Si T(Si)
En su lugar, puede considerar todos los subconjuntos de tamaño 98 y obtener JK-2 (2 elementos eliminados) o JK-3, etc.
Ahora, bootstrap es solo una versión aleatoria de esto. Al volver a muestrear mediante la selección con reemplazos, "eliminaría" un número aleatorio de elementos (posiblemente ninguno) y los "reemplazaría" por uno (o más) réplicas.
Al reemplazar con réplicas, el conjunto de datos muestreado siempre tiene el mismo tamaño. Para jackknife, puede preguntar cuál es el efecto de jackknifing en muestras de tamaño 99 en lugar de 100, pero si el tamaño de la muestra es "suficientemente grande", esto probablemente no sea un problema.
En jackknife nunca se mezclan delete-1 y delete-2, etc., para asegurarse de que las estimaciones extraídas sean de muestras del mismo tamaño.
También puede considerar dividir la muestra de tamaño 100 en, por ejemplo, 10 muestras de tamaño 10. Esto en algunos aspectos teóricos sería más limpio (subconjuntos independientes) pero reduce el tamaño de la muestra (de 100 a 10) tanto como para ser poco práctico (en la mayoría casos).
También podría considerar subconjuntos parcialmente superpuestos de cierto tamaño. Todo esto se maneja de manera automática, uniforme y aleatoria por el método bootstrap.
Además, el método bootstrap le brinda una estimación de la distribución de muestreo de su estadística a partir de la distribución empírica de la muestra original, para que pueda analizar otras propiedades de la estadística además del error estándar.
fuente
Parafraseando a Fox , comenzaría diciendo que el proceso de remuestreo repetido de su muestra observada ha demostrado imitar el proceso del muestreo original de toda la población.
fuente
Un muestreo finito de la población aproxima la distribución de la misma manera que lo hace un histograma. Al volver a muestrear, se cambia cada recuento de contenedores y se obtiene una nueva aproximación. Los valores de conteo grandes fluctúan menos que los valores de conteo pequeños tanto en la población original como en el conjunto muestreado. Como le está explicando esto a un laico, puede argumentar que para grandes recuentos de contenedores esto es aproximadamente la raíz cuadrada del conteo de contenedores en ambos casos.
Si encuentro pelirrojos y otros de una muestra de , el nuevo muestreo estimaría la fluctuación de los pelirrojos como , que es como asumir que la población original era realmente distribuido . Entonces, si aproximamos la probabilidad real como la muestra, podemos obtener una estimación del error de muestreo "alrededor" de este valor.80 100 √20 80 100 1:4(0.2×0.8)×100−−−−−−−−−−−−−√ 1:4
Creo que es importante enfatizar que el bootstrap no descubre datos "nuevos", es solo una forma conveniente y no paramétrica de determinar aproximadamente las fluctuaciones de muestra a muestra si la probabilidad muestreada es la verdadera.
fuente
Tenga en cuenta que en las estadísticas inferenciales clásicas, la entidad teórica que conecta una muestra a la población como un buen estimador de la población es la distribución de muestreo (todas las muestras posibles que podrían extraerse de la población). El método bootstrap está creando un tipo de distribución de muestreo (una distribución basada en múltiples muestras). Claro, es un método de máxima verosimilitud, pero la lógica básica no es tan diferente de la de la teoría de probabilidad tradicional detrás de las estadísticas clásicas basadas en la distribución normal.
fuente
Mi punto es muy pequeño.
Bootstrap funciona porque explota computacionalmente de manera intensiva la premisa principal de nuestra agenda de investigación.
Para ser más específicos, en estadística o biología, o en la mayoría de las ciencias no teóricas, estudiamos individuos, recolectando muestras.
Sin embargo, a partir de tales muestras, queremos hacer inferencias sobre otros individuos, presentándonos en el futuro o en diferentes muestras.
Con bootstrap, al encontrar explícitamente nuestro modelo en los componentes individuales de nuestra muestra, podemos inferir y predecir mejor (con menos suposiciones, por lo general) para otros individuos.
fuente
Al explicar a los principiantes, creo que es útil tomar un ejemplo específico ...
Imagine que tiene una muestra aleatoria de 9 mediciones de alguna población. La media de la muestra es 60. ¿Podemos estar seguros de que el promedio de toda la población también es 60? Obviamente no porque las muestras pequeñas variarán, por lo que es probable que la estimación de 60 sea inexacta. Para saber cuánto variarán muestras como esta, podemos realizar algunos experimentos, utilizando un método llamado bootstrapping.
El primer número en la muestra es 74 y el segundo es 65, así que imaginemos una gran población "simulada" que comprende un noveno 74, un noveno 65, y así sucesivamente. La forma más fácil de tomar una muestra aleatoria de esta población es tomar un número al azar de la muestra de nueve, luego reemplazarlo para que tenga la muestra original de nueve nuevamente y elegir otra al azar, y así sucesivamente hasta que tenga un "remuestreo" de 9. Cuando hice esto, 74 no apareció en absoluto, pero algunos de los otros números aparecieron dos veces, y la media fue 54.4. (Esto se configura en la hoja de cálculo en http://woodm.myweb.port.ac.uk/SL/resample.xlsx ; haga clic en la pestaña de arranque en la parte inferior de la pantalla).
Cuando tomé 1000 muestras de esta manera, sus medias variaron de 44 a 80, con un 95% entre 48 y 72. Lo que sugiere que hay un error de hasta 16-20 unidades (44 es 16 por debajo de la media de población simulada de 60, 80 es 20 unidades arriba) en el uso de muestras de tamaño 9 para estimar la media de la población. y que podemos estar 95% seguros de que el error será 12 o menos. Por lo tanto, podemos estar 95% seguros de que la media de la población estará entre 48 y 72.
Aquí se pasan por alto varias suposiciones, la obvia es la suposición de que la muestra ofrece una imagen útil de la población: la experiencia muestra que esto generalmente funciona bien siempre que la muestra sea razonablemente grande (9 es un poco pequeña pero hace que sea más fácil ver lo que está pasando). La hoja de cálculo en http://woodm.myweb.port.ac.uk/SL/resample.xlsx le permite ver muestras individuales, trazar histogramas de 1000 muestras, experimentar con muestras más grandes, etc. Hay una explicación más detallada en el artículo. en https://arxiv.org/abs/1803.06214 .
fuente