¿Por qué en promedio cada muestra de bootstrap contiene aproximadamente dos tercios de las observaciones?

42

He correr a través de la afirmación de que cada muestra bootstrap (o árbol de embolsado) contendrán en promedio aproximadamente 2/3 de las observaciones.

Yo entiendo que la posibilidad de no ser seleccionado en cualquiera de n extrae de n muestras con reemplazo es (11/n)n , lo que equivale a aproximadamente 1/3 posibilidad de no ser seleccionado.

¿Qué es una explicación matemática de por qué esta fórmula siempre da 1/3 ?

xyzzy
fuente
10
Creo que este es el origen del .632 en la regla bootstrap 632+.
gung - Restablece a Monica

Respuestas:

29

limn(11/n)n=e1
e1=1/e1/3

No funciona en muy pequeño , por ejemplo, en , . Pasa en , pasa en y en . Una vez que vaya más allá de , es una mejor aproximación que .nn=2(11/n)n=1413n=60.35n=110.366n=99n=111e13

ingrese la descripción de la imagen aquí

La línea discontinua gris está en ; la línea roja y gris está en .131e

En lugar de mostrar una derivación formal (que se puede encontrar fácilmente), voy a dar un resumen (que es un argumento intuitivo y manual) de por qué un resultado (ligeramente) más general es válido:

ex=limn(1+x/n)n

(Muchas personas consideran que esto es la definición de , pero puede probarlo a partir de resultados más simples, como definir como .)exp(x)elimn(1+1/n)n

Hecho 1: Esto se desprende de los resultados básicos sobre potencias y exponenciaciónexp(x/n)n=exp(x)

Hecho 2: cuando es grande, Esto se deduce de la expansión de la serie para .nexp(x/n)1+x/nex

(Puedo dar argumentos más completos para cada uno de estos, pero supongo que ya los conoce)

Sustituya (2) en (1). Hecho. (Para que esto funcione como un argumento más formal tomaría algo de trabajo, porque tendrías que demostrar que los términos restantes en el Hecho 2 no se vuelven lo suficientemente grandes como para causar un problema cuando se toma el poder . Pero esto es intuición en lugar de una prueba formal).n

[Alternativamente, solo tome la serie Taylor para en primer orden. Un segundo enfoque fácil es tomar la expansión binomial de tomar el límite término por término, mostrando que da los términos en la serie para .]exp(x/n)(1+x/n)nexp(x/n)

Entonces, si , simplemente sustituya .ex=limn(1+x/n)nx=1

Inmediatamente, tenemos el resultado en la parte superior de esta respuesta,limn(11/n)n=e1


Como Gung señala en los comentarios, el resultado en su pregunta es el origen de la regla de arranque 632

por ejemplo, ver

Efron, B. y R. Tibshirani (1997),
"Mejoras en la validación cruzada: el método Bootstrap .632+",
Journal of the American Statistical Association vol. 92, núm. 438. (junio), págs. 548-560

Glen_b
fuente
41

Más precisamente, cada muestra de bootstrap (o árbol en bolsas) contendrá de la muestra.11e0.632

Veamos cómo funciona el bootstrap. Tenemos una muestra original con elementos en ella. Dibujamos artículos con reemplazo de este conjunto original hasta que tengamos otro conjunto de tamaño .x1,x2,xnnn

De eso, se deduce que la probabilidad de elegir cualquier elemento (digamos, ) en el primer sorteo es . Por lo tanto, la probabilidad de no elegir ese elemento es . Eso es solo para el primer sorteo; hay un total de sorteos, todos los cuales son independientes, por lo que la probabilidad de nunca elegir este elemento en ninguno de los sorteos es .x11n11nn(11n)n

Ahora, pensemos en lo que sucede cuando hace más y más grande. Podemos tomar el límite cuando va hacia el infinito, usando los trucos de cálculo habituales (o Wolfram Alpha): nn

limn(11n)n=1e0.368

Esa es la probabilidad de que un artículo no sea ​​elegido. Resta de uno para encontrar la probabilidad de que el elemento sea elegido, lo que te da 0.632.

Matt Krause
fuente
5

El muestreo con reemplazo se puede modelar como una secuencia de ensayos binomiales donde se selecciona el "éxito". Para un conjunto de datos original de instancias, la probabilidad de "éxito" es la probabilidad de "falla" es . Para un tamaño de muestra de , la distribución binomial da las probabilidades de seleccionar una instancia exactamente veces:n1/n(n1)/nbx

P(x,b,n)=(1n)x(n1n)bx(bx)

En el caso específico de una muestra de bootstrap, el tamaño de la muestra es igual al número de instancias . Dejando que acerque al infinito, obtenemos:bnn

limn(1n)x(n1n)nx(nx)=1ex!

Si nuestro conjunto de datos original es grande, podemos usar esta fórmula para calcular la probabilidad de que una instancia se seleccione exactamente veces en una muestra de arranque. Para , la probabilidad es , o aproximadamente . La probabilidad de que una instancia se muestree al menos una vez es, por lo tanto, .xx=01/e0.36810.368=0.632

No hace falta decir que deduje minuciosamente esto con lápiz y papel, y ni siquiera consideré usar Wolfram Alpha.

retsreg
fuente
4

Simplemente agregando a la respuesta de @retsreg esto también se puede demostrar con bastante facilidad a través de la simulación numérica en R:

N <- 1e7 # number of instances and sample size
bootstrap <- sample(c(1:N), N, replace = TRUE)
round((length(unique(bootstrap))) / N, 3)
## [1] 0.632
vonjd
fuente
1

Esto se puede ver fácilmente contando. ¿Cuántas muestras posibles totales? n ^ n. ¿Cuántos NO contienen un valor específico? (n-1) ^ n. Probabilidad de que una muestra no tenga un valor específico - (1-1 / n) ^ n, que es aproximadamente 1/3 en el límite.

Maxim Khesin
fuente