Tamaño de las muestras de bootstrap

Estoy aprendiendo sobre bootstrapping como un medio para estimar la varianza de una estadística de muestra. Tengo una duda básica

Citando de http://web.stanford.edu/class/psych252/tutorials/doBootstrapPrimer.pdf :

• ¿Cuántas observaciones deberíamos volver a muestrear? Una buena sugerencia es el tamaño de muestra original.

¿Cómo podemos volver a muestrear tantas observaciones como en la muestra original?
Si tengo un tamaño de muestra de 100, y estoy tratando de estimar la varianza de la media. ¿Cómo puedo obtener múltiples muestras de arranque de tamaño 100 de un tamaño de muestra total de 100? En este caso, solo sería posible 1 muestra de bootstrap, que sería equivalente a la muestra original, ¿verdad?

Obviamente estoy malinterpretando algo muy básico. Entiendo que la cantidad de muestras de bootstrap ideales siempre es infinita, y para determinar la cantidad de muestras de bootstrap necesarias para mis datos, tendría que probar la convergencia teniendo en cuenta mi precisión requerida.
Pero estoy realmente confundido acerca de cuál debería ser el tamaño de cada muestra de arranque individual .

sampling bootstrap resampling usuario1265125
fuente

La parte superior de la p. 3, y las ilustraciones allí, estipulan clara y prominentemente que el remuestreo es con reemplazo.

whuber

Pero si el tamaño de mi muestra de arranque es igual al número total de observaciones que tengo, ¿con qué reemplazo?

user1265125

Ejemplo simplificado, así que si tengo 4,1,3,7,5 como mi conjunto de muestras. ¿Cómo puedo crear múltiples muestras de bootstrap de tamaño 5? La única muestra de bootstrap de tamaño 5 será 4,1,3,7,5, es decir, el conjunto de muestra original.

user1265125

Oh, espera, entendí: "• Para simular una distribución de muestreo, simplemente podemos tomar muestras aleatorias repetidas de esta" población "compuesta de muchas copias de la muestra"

usuario1265125

Respuestas:

Bootstrap se realiza mediante muestreo con reemplazo . Parece que el término "con reemplazo" no está claro para usted. Como señaló Whuber , la ilustración de muestreo con reemplazo se da en la p. 3 del documento al que se refiere (reproducido a continuación).

(fuente: http://web.stanford.edu/class/psych252/tutorials/doBootstrapPrimer.pdf )

La idea general del muestreo con reemplazo es que cualquier caso se puede muestrear varias veces (canica verde en la primera imagen de arriba; canicas azules y violetas en la última imagen). Si quieres imaginarte a ti mismo este proceso, piensa en un recipiente lleno de canicas de colores. Digamos que quieres sacar algunas canicas de este tazón. Si tomaste muestras sin reemplazo, simplemente estarías sacando las canicas del tazón y dejando a un lado las muestras. Si tomaste muestras con reemplazo, entonces estarías probando las canicas una por una, sacando una canica del tazón, firmando su color en tu cuaderno y luego devolviéndolaal tazón. Entonces, cuando se muestrea con reemplazo, se puede muestrear la misma canica varias veces.

$n$ $n$ $n$ $n$ $n$ $n$ $n$

Hay formas de muestreo sin reemplazo casos fuera de la población de tamaño y formas de muestreo con reemplazo. Si desea leer más sobre las matemáticas detrás de esto, puede consultar el 2.1. Capítulo combinatorio del manual en línea Introducción a la probabilidad de Hossein Pishro-Nik. También hay una práctica hoja de trucos en la página de WolframMathWorld . $n \choose k$ $k$ $n$ $n+k-1 \choose k$

Tim
fuente

¿Cuántas observaciones deberíamos volver a muestrear? Una buena sugerencia es el tamaño de muestra original.

Cuando el tamaño de la muestra original es demasiado grande y no desea / no puede entrenar un modelo en el conjunto de datos completo, la "buena sugerencia" no es tan buena.

PD: quería agregar esto como un comentario a la pregunta, pero no puedo agregar ningún comentario ...

daruma
fuente

¿Por qué quieres agregar esta sugerencia? Si esto se debe a que los conjuntos de datos son demasiado grandes para los esfuerzos computacionales habituales, ese es un tema práctico relevante, pero en realidad no se aplica a la teoría de arranque que se cuestionó aquí. Además, se trataba de "estimar la varianza de una estadística de muestra". ¿Está eso realmente relacionado con el entrenamiento general de un modelo? (Nota: para no ser grosero, entiendo que aún no puede publicar comentarios, pero eso no le exime de proporcionar una respuesta relevante al publicar como tal. Debe ser mucho más claro, O publicar su propia pregunta)

IWS