El método bootstrap ha visto una gran difusión en los últimos años, también lo uso mucho, especialmente porque el razonamiento detrás es bastante intuitivo.
Pero eso es algo que no entiendo. ¿Por qué Efron eligió realizar una nueva muestra con reemplazo en lugar de simplemente submuestreo al incluir o excluir observaciones individuales al azar?
Creo que el submuestreo aleatorio tiene una muy buena calidad, que representa idealmente la situación de la vida real en la que las observaciones que tenemos en nuestro estudio son un subconjunto de una población hipotética. No veo la ventaja de tener observaciones multiplicadas durante el remuestreo. En un contexto real, ninguna observación es similar a otra, especialmente para situaciones complejas multivariadas.
fuente
Respuestas:
Una forma de entender esta elección es pensar en la muestra en cuestión como la mejor representación que tiene de la población subyacente. Es posible que ya no tenga una muestra completa de la población, pero sí tiene esta representación particular de la población. Una nueva muestra verdaderamente aleatoria de esta representación de la población significa que debe realizar una muestra con reemplazo, de lo contrario, su muestreo posterior dependerá de los resultados de su muestreo inicial. La presencia de un caso repetido en una muestra de bootstrap particular representa miembros de la población subyacente que tienen características cercanas a las de ese caso repetido en particular. Los enfoques de dejar uno afuera o dejar varios afuera, como sugieres, también se pueden usar, pero eso es validación cruzada en lugar de bootstrapping.
Creo que esto simplemente pone en otras palabras el comentario de @kjetil_b_halvorsen
fuente