Estoy aprendiendo sobre bootstrapping como un medio para estimar la varianza de una estadística de muestra. Tengo una duda básica
Citando de http://web.stanford.edu/class/psych252/tutorials/doBootstrapPrimer.pdf :
• ¿Cuántas observaciones deberíamos volver a muestrear? Una buena sugerencia es el tamaño de muestra original.
¿Cómo podemos volver a muestrear tantas observaciones como en la muestra original?
Si tengo un tamaño de muestra de 100, y estoy tratando de estimar la varianza de la media. ¿Cómo puedo obtener múltiples muestras de arranque de tamaño 100 de un tamaño de muestra total de 100? En este caso, solo sería posible 1 muestra de bootstrap, que sería equivalente a la muestra original, ¿verdad?
Obviamente estoy malinterpretando algo muy básico. Entiendo que la cantidad de muestras de bootstrap ideales siempre es infinita, y para determinar la cantidad de muestras de bootstrap necesarias para mis datos, tendría que probar la convergencia teniendo en cuenta mi precisión requerida.
Pero estoy realmente confundido acerca de cuál debería ser el tamaño de cada muestra de arranque individual .
fuente
Respuestas:
Bootstrap se realiza mediante muestreo con reemplazo . Parece que el término "con reemplazo" no está claro para usted. Como señaló Whuber , la ilustración de muestreo con reemplazo se da en la p. 3 del documento al que se refiere (reproducido a continuación).
(fuente: http://web.stanford.edu/class/psych252/tutorials/doBootstrapPrimer.pdf )
La idea general del muestreo con reemplazo es que cualquier caso se puede muestrear varias veces (canica verde en la primera imagen de arriba; canicas azules y violetas en la última imagen). Si quieres imaginarte a ti mismo este proceso, piensa en un recipiente lleno de canicas de colores. Digamos que quieres sacar algunas canicas de este tazón. Si tomaste muestras sin reemplazo, simplemente estarías sacando las canicas del tazón y dejando a un lado las muestras. Si tomaste muestras con reemplazo, entonces estarías probando las canicas una por una, sacando una canica del tazón, firmando su color en tu cuaderno y luego devolviéndolaal tazón. Entonces, cuando se muestrea con reemplazo, se puede muestrear la misma canica varias veces.
Hay formas de muestreo sin reemplazo casos fuera de la población de tamaño y formas de muestreo con reemplazo. Si desea leer más sobre las matemáticas detrás de esto, puede consultar el 2.1. Capítulo combinatorio del manual en línea Introducción a la probabilidad de Hossein Pishro-Nik. También hay una práctica hoja de trucos en la página de WolframMathWorld .(nk) k n (n+k−1k)
fuente
Cuando el tamaño de la muestra original es demasiado grande y no desea / no puede entrenar un modelo en el conjunto de datos completo, la "buena sugerencia" no es tan buena.
PD: quería agregar esto como un comentario a la pregunta, pero no puedo agregar ningún comentario ...
fuente