¿Qué tan bien aproxima el bootstrapping a la distribución muestral de un estimador?

29

Habiendo estudiado recientemente bootstrap, se me ocurrió una pregunta conceptual que todavía me desconcierta:

Tiene una población y desea conocer un atributo de población, es decir, , donde uso para representar a la población. Esta podría ser la media poblacional, por ejemplo. Por lo general, no puede obtener todos los datos de la población. Entonces, se extrae una muestra de tamaño de la población. Supongamos que tiene iid sample por simplicidad. Luego obtienes tu estimador . Desea usar para hacer inferencias sobre , por lo que le gustaría saber la variabilidad de .P θ X N θ = g ( X ) θ θ θθ=g(P)PθXNθ^=g(X)θ^θθ^

Primero, hay una verdadera distribución de muestreo de . Conceptualmente, podría extraer muchas muestras (cada una de ellas tiene el tamaño ) de la población. Cada vez tendrá una realización de ya que cada vez tendrá una muestra diferente. Luego, al final, podrá recuperar la verdadera distribución de . Ok, este al menos es el punto de referencia conceptual para la estimación de la distribución de . Permítanme repetirlo: el objetivo final es utilizar varios métodos para estimar o aproximar la distribución verdadera de . N θ =g(X) θ θ θθ^Nθ^=g(X)θ^θ^θ^

Ahora, aquí viene la pregunta. Por lo general, solo tiene una muestra que contiene puntos de datos. Luego, volverá a muestrear esta muestra muchas veces, y obtendrá una distribución de arranque de . Mi pregunta es: ¿qué tan cerca está esta distribución de arranque a la verdadera distribución de muestreo de ? ¿Hay alguna manera de cuantificarlo?N θXNθ^θ^

KevinKim
fuente
1
Esta pregunta altamente relacionada contiene una gran cantidad de información adicional, hasta el punto de hacer que esta pregunta sea posiblemente un duplicado.
Xi'an
Primero, gracias a todos por responder mis preguntas tan pronto. Esta es la primera vez que uso este sitio web. Nunca esperé que mi pregunta llamara la atención de nadie honestamente. Tengo una pequeña pregunta aquí, ¿qué es 'OP'? @ Silverfish
KevinKim
@Chen Jin: "OP" = póster original (¡es decir, usted!). Disculpas por el uso de una abreviatura, lo cual acepto es potencialmente confuso.
Silverfish
1
He editado el título para que coincida más con su afirmación de que "Mi pregunta es: ¿qué tan cerca está esto de la verdadera distribución de ? ¿Hay alguna forma de cuantificarlo?" Siéntete libre de revertirlo si no crees que mi edición refleja tu intención. θ^
Silverfish
@Silverfish Muchas gracias. Cuando comienzo este póster, no estoy muy seguro de mi pregunta en realidad. Este nuevo título es bueno.
KevinKim

Respuestas:

20

En la teoría de la información, la forma típica de cuantificar cuán "cerca" de una distribución a otra es utilizar la divergencia KL

Tratemos de ilustrarlo con un conjunto de datos de cola larga muy sesgado: retrasos en la llegada de aviones al aeropuerto de Houston (del paquete hflights ). Sea el estimador medio. Primero, encontramos la distribución de muestreo de , y luego la distribución de arranque de theta thetaθ^θ^θ^

Aquí está el conjunto de datos:

ingrese la descripción de la imagen aquí

La media real es 7.09 min.

Primero, hacemos un cierto número de muestras para obtener la distribución de muestreo de , luego tomamos una muestra y tomamos muchas muestras de arranque de ella.θ^

Por ejemplo, echemos un vistazo a dos distribuciones con el tamaño de muestra de 100 y 5000 repeticiones. Vemos visualmente que estas distribuciones están bastante separadas, y la divergencia KL es 0.48.

ingrese la descripción de la imagen aquí

Pero cuando aumentamos el tamaño de la muestra a 1000, comienzan a converger (la divergencia de KL es 0.11)

ingrese la descripción de la imagen aquí

Y cuando el tamaño de la muestra es 5000, están muy cerca (la divergencia KL es 0.01)

ingrese la descripción de la imagen aquí

Esto, por supuesto, depende de la muestra de bootstrap que obtenga, pero creo que puede ver que la divergencia KL disminuye a medida que aumentamos el tamaño de la muestra y, por lo tanto, la distribución de bootstrap de acerca a la distribución de muestras en términos de divergencia KL. Para estar seguro, puede intentar hacer varios bootstraps y tomar el promedio de la divergencia KL. thetaθ^θ^

Aquí está el código R de este experimento: https://gist.github.com/alexeygrigorev/0b97794aea78eee9d794

Alexey Grigorev
fuente
55
+1 y esto también muestra que para cualquier tamaño de muestra dado (como, por ejemplo, 100), el sesgo de arranque puede ser grande e inevitable.
ameba dice Reinstate Monica
Este es genial! Entonces, para permitir que la distribución de desde el bootstrap esté cerca de la distribución VERDADERA de , necesitamos un gran tamaño de muestra ¿verdad? Para cualquier tamaño de muestra fijo, la distribución generada a partir del bootstrap puede ser muy diferente de la distribución VERDADERA mencionada por @amoeba. theta Nθ^θ^N
KevinKim
NB=10B=10000θ^NBθ^
1
θ^B=10B=100001010000
1
F555FBFB
23

F^n(x)=1ni=1nIXixXiiidF(x)
nF(x)xθ^(X1,,Xn)=g(F^n) xn xg( F n)g( F n)
n{F^n(x)F(x)}distN(0,F(x)[1F(x)])
a pesar de que esta distribución de velocidad y límite no se transfiere automáticamente a . En la práctica, para evaluar la variabilidad de la aproximación, puede producir una evaluación bootstrap de la distribución de por doble bootstrap, es decir, mediante evaluaciones bootstrap bootstrap.g(F^n)g(F^n)

Como actualización, aquí hay una ilustración que uso en la clase: ingrese la descripción de la imagen aquí donde lhs compara el verdadero cdfcon el cdfempíricoparaobservaciones y el rhs trazaréplicas de lhs, para 250 muestras diferentes , para medir la variabilidad de la aproximación cdf. En el ejemplo, sé la verdad y, por lo tanto, puedo simular a partir de la verdad para evaluar la variabilidad. En una situación realista, no conozcoy, por lo tanto, tengo que comenzar desdepara producir un gráfico similar.F n n = 100 250 F F nFF^nn=100250FF^n

Actualización adicional: así es como se ve la imagen del tubo al comenzar desde el CDF empírico: ingrese la descripción de la imagen aquí

Xi'an
fuente
55
El quid de esta respuesta es que el bootstrap funciona porque es una aproximación de muestra grande . No creo que este punto se enfatice lo suficiente
shadowtalker
2
Quiero decir, "enfatizado con bastante frecuencia en general"
shadowtalker
@ Xi'an Muchas gracias. Me gustan los últimos 2 paneles, así que en este ejemplo, supongamos que no conocemos el cdf verdadero, es decir, la curva roja en la lhs, solo tengo el cdf empírico de una muestra de . Luego hago un nuevo muestreo de esta muestra. Luego produzco un gráfico similar al de la derecha. ¿Tendrá este nuevo gráfico un tubo más ancho que el tubo actual en su figura de HR actual? ¿Y el nuevo tubo seguirá centrado alrededor del verdadero cdf, es decir, la curva roja como el tubo en su figura de HR actual? n=100F^n=100
KevinKim
3
FnF
@ Xi'an Muy bien! sería aún mejor si la segunda y la tercera figura se pueden combinar en una sola figura
KevinKim