Acabo de aprender sobre el concepto de bootstrapping, y se me ocurrió una pregunta ingenua: si siempre podemos generar numerosas muestras de bootstrap de nuestros datos, ¿por qué molestarse en obtener más datos "reales"?
Creo que tengo una explicación, por favor dígame si estoy en lo correcto: creo que el proceso de arranque reduce la varianza, PERO si mi conjunto de datos original está BIASED, entonces estoy atascado con una varianza baja y un sesgo alto, sin importar cuántas réplicas Estoy tomando.
Respuestas:
El bootstrap es un método para hacer inferencia de una manera que no requiere asumir una forma paramétrica para la distribución de la población. No trata la muestra original como si fuera la población, incluso aquellos a los que implica el muestreo con reemplazo de la muestra original. Se supone que el muestreo con reemplazo de la muestra original de tamaño n imita la toma de una muestra de tamaño n de una población más grande. También tiene muchas variantes, como el m out de n bootstrap, que vuelve a muestrear m time a partir de una muestra de tamaño n donde m <n. Las buenas propiedades del bootstrap dependen de la teoría asintótica. Como otros han mencionado, el bootstrap no contiene más información sobre la población que la que se da en la muestra original. Por esa razón, a veces no funciona bien en muestras pequeñas.
En mi libro "Métodos Bootstrap: una guía para profesionales", segunda edición publicada por Wiley en 2007, señalo situaciones en las que el bootstrap puede fallar. Esto incluye la distribución que no tiene momentos finitos, tamaños de muestra pequeños, estimación de valores extremos a partir de la distribución y estimación de la varianza en el muestreo de la encuesta donde el tamaño de la población es N y se toma una muestra grande n. En algunos casos, las variantes de bootstrap pueden funcionar mejor que el enfoque original. Esto sucede con el m de n bootstrap en algunas aplicaciones. En el caso de estimar las tasas de error en el análisis discriminante, el bootstrap 632 es una mejora con respecto a otros métodos, incluidos otros métodos de bootstrap.
Una razón para usarlo es que a veces no se puede confiar en suposiciones paramétricas y, en algunas situaciones, el bootstrap funciona mejor que otros métodos no paramétricos. Se puede aplicar a una amplia variedad de problemas que incluyen regresión no lineal, clasificación, estimación de intervalo de confianza, estimación de sesgo, ajuste de valores p y análisis de series de tiempo, por nombrar algunos.
fuente
Una muestra de arranque solo puede decirle cosas sobre la muestra original, y no le dará ninguna información nueva sobre la población real. Es simplemente un método no paramétrico para construir intervalos de confianza y similares.
Si desea obtener más información sobre la población, debe recopilar más datos de la población.
fuente