Metodología Bootstrap. ¿Por qué volver a muestrear "con reemplazo" en lugar de submuestreo aleatorio?

11

El método bootstrap ha visto una gran difusión en los últimos años, también lo uso mucho, especialmente porque el razonamiento detrás es bastante intuitivo.

Pero eso es algo que no entiendo. ¿Por qué Efron eligió realizar una nueva muestra con reemplazo en lugar de simplemente submuestreo al incluir o excluir observaciones individuales al azar?

Creo que el submuestreo aleatorio tiene una muy buena calidad, que representa idealmente la situación de la vida real en la que las observaciones que tenemos en nuestro estudio son un subconjunto de una población hipotética. No veo la ventaja de tener observaciones multiplicadas durante el remuestreo. En un contexto real, ninguna observación es similar a otra, especialmente para situaciones complejas multivariadas.

Bakaburg
fuente
3
El remuestreo con remuestreo se realiza porque eso es lo correcto, dado el modelo. El modelo detrás del bootstrap es utilizar la máxima probabilidad no paramétrica para estimar la función de distribución acumulativa, luego tomar muestras independientes de las observaciones de la función de distribución acumulativa estimada. Piénselo --- algorítmicamente, eso se obtiene mediante muestreo por reemplazo de la muestra original.
kjetil b halvorsen

Respuestas:

10

Una forma de entender esta elección es pensar en la muestra en cuestión como la mejor representación que tiene de la población subyacente. Es posible que ya no tenga una muestra completa de la población, pero sí tiene esta representación particular de la población. Una nueva muestra verdaderamente aleatoria de esta representación de la población significa que debe realizar una muestra con reemplazo, de lo contrario, su muestreo posterior dependerá de los resultados de su muestreo inicial. La presencia de un caso repetido en una muestra de bootstrap particular representa miembros de la población subyacente que tienen características cercanas a las de ese caso repetido en particular. Los enfoques de dejar uno afuera o dejar varios afuera, como sugieres, también se pueden usar, pero eso es validación cruzada en lugar de bootstrapping.

Creo que esto simplemente pone en otras palabras el comentario de @kjetil_b_halvorsen

EdM
fuente
Entiendo el punto. Hacer observaciones individuales en una muestra de bootstrap independientes entre sí. En la literatura existen métodos basados ​​en submuestreo, ver Politis, Romano, Wolf. El uso de un subconjunto fijo m de n, elegido sin reemplazo. ¿Cómo evitan la trampa que dijiste antes? En su caso nuevamente, no entiendo por qué usan una submuestra de tamaño fijo en lugar de una submuestra aleatoria.
Bakaburg
2
Los métodos de submuestreo están tratando de lograr algo diferente del bootstrap. Esos métodos buscan seleccionar subconjuntos aleatorios de la muestra de datos en lugar de tratar de emular una nueva muestra aleatoria de la población subyacente . No es que uno u otro esté equivocado; son enfoques diferentes que tienen fortalezas y debilidades particulares.
EdM
Entonces, tal vez debería hacer una nueva pregunta con respecto a la diferencia entre los dos métodos en las estadísticas de inferencia. ¡Gracias!
Bakaburg
@Bakaburg vea esta pregunta para una excelente introducción a la literatura sobre bootstrapping versus validación cruzada (que es un tipo particular de submuestreo).
EdM
@Bakaburg El método bootstrap es simular el dibujo independiente repetido de muestras aleatorias de tamaño n (no un subconjunto más pequeño que n) de una población más grande. Esto significa que es concebible que una muestra aleatoria contenga una gran cantidad de valores extremos pequeños o grandes de la población parental que a menudo están subrepresentados en nuestra muestra original. Como señaló EdM, el remuestreo con reemplazo permite que una sola observación de muestra "represente" múltiples observaciones en la población que tienen valores similares: es una forma de obtener una aproximación suave de la distribución de la población.
RobertF