Posibilidad de que la muestra de bootstrap sea exactamente la misma que la muestra original

9

Solo quiero revisar algunos razonamientos.

Si mi muestra original es de tamaño arranco, mi proceso de pensamiento es el siguiente:norte

1norte es la posibilidad de cualquier observación extraída de la muestra original. Para garantizar que el próximo sorteo no sea la observación muestreada anteriormente, restringimos el tamaño de la muestra a . Por lo tanto, obtenemos este patrón:norte-1

1norte1norte-11norte-21norte-(norte-1)=1norte!.

¿Es esto correcto? Me tropiezo con por qué no puede ser lugar.(1norte)norte

Jayant.M
fuente
1
No estoy seguro de seguirte. ¿Por qué quiere "asegurarse de que el próximo sorteo no sea la muestra anterior"? En bootstrapping, la idea es probar con reemplazo. Es decir, que lo quiere que sea posible que el próximo sorteo es el mismo que uno que ya ha dibujado.
gung - Restablece a Monica
¿Pero eso no significa que la muestra inicial no es la misma que la muestra original?
Jayant.M
No te sigo No necesariamente desea que la muestra de arranque sea idéntica a su muestra, solo desea tratar la muestra como un modelo de la población.
gung - Restablece a Monica
1
Entonces, mi pregunta es cuál es la posibilidad de que la muestra de bootstrap sea la misma que la muestra original. Estoy interesado en que el bootstrap sea idéntico a la muestra
Jayant
Lo siento si mi pregunta no estaba clara!
Jayant.M

Respuestas:

17

Tenga en cuenta que en cada posición de observación ( ) podemos elegir cualquiera de las n observaciones, por lo que hay n n posibles vuelve a muestrear (manteniendo el orden en el que se dibujan) de los cuales n ! son la "misma muestra" (es decir, contienen todas las n observaciones originales sin repeticiones; esto explica todas las formas de ordenar la muestra con la que comenzamos).yo=1,2,...,nortenortenortenortenorte!norte

Por ejemplo, con tres observaciones, a, byc, tiene 27 muestras posibles:

aaa aab aac aba abb abc aca acb acc 
baa bab bac bba bbb bbc bca bcb bcc 
caa cab cac cba cbb cbc cca ccb ccc 

Seis de ellos contienen uno de cada uno de a, by c.

Entonces es la probabilidad de recuperar la muestra original.norte!/ /nortenorte

Aparte: una aproximación rápida de la probabilidad:

Considera eso :

2π nortenorte+12mi-nortenorte!mi nortenorte+12mi-norte

entonces

2π norte12mi-nortenorte!/ /nortenortemi norte12mi-norte

Siendo el límite inferior el habitual dado para la aproximación de Stirling (que tiene un error relativo bajo para grande ).norte

[Gosper ha sugerido usar que daría la aproximaciónnorte!(2norte+13)πnortenortemi-norte para esta probabilidad, que funciona razonablemente bien hasta n = 3 , o incluso hasta n = 1 dependiendo de cuán estrictos sean sus criterios.](2norte+13)πmi-nortenorte=3norte=1


(1-1norte)nortenortemi-1

Para más detalles, consulte
¿Por qué, en promedio, cada muestra de bootstrap contiene aproximadamente dos tercios de las observaciones?

Glen_b -Reinstate a Monica
fuente
una,si,Cuna
1
Eso ya está cubierto en otras respuestas en el sitio, pero lo he agregado anteriormente (brevemente).
Glen_b: reinstala a Mónica el
1
(1norte)norte
1
norte!
1
norte=1norte=3norte=2norte=1