¿Podemos usar muestras de bootstrap que sean más pequeñas que la muestra original?

12

Quiero usar bootstrapping para estimar los intervalos de confianza para los parámetros estimados de un conjunto de datos de panel con N = 250 empresas y T = 50 meses. La estimación de parámetros es computacionalmente costosa (pocos días de cómputo) debido al uso del filtrado de Kalman y la estimación no lineal compleja. Por lo tanto, extraer (con reemplazo) B (en cientos o más) muestras de M = N = 250 empresas de la muestra original y estimar los parámetros B veces no es computacionalmente factible, a pesar de que este es el método básico para el arranque.

Por lo tanto, estoy considerando usar M más pequeño (p. Ej., 10) para muestras de bootstrap (en lugar del tamaño completo de N = 250), dibujado al azar con el reemplazo de las firmas originales, y luego escalar la matriz de covarianza estimada de bootstrap de los parámetros del modelo con 1NM (en el ejemplo anterior en 1/25) para calcular la matriz de covarianza para los parámetros del modelo estimados en la muestra completa.

Los intervalos de confianza deseados se pueden aproximar en función de la suposición de normalidad, o los empíricos para muestras más pequeñas escaladas utilizando un procedimiento similar (por ejemplo, reducido por un factor de 1NM .

¿Tiene sentido esta solución? ¿Hay resultados teóricos para justificar esto? ¿Alguna alternativa para enfrentar este desafío?

Hazhir
fuente

Respuestas:

4

MNMN

1N(TNμ)X1,,XNμTN=1Ni=1NXiμ=E(X1)

N{x1,,xN}μ^N=TN(x1,,xN)

(1)N(TN(X1,,XN)μ^N)DN(TN(X1,,XN)μ)
XiXi{x1,,xN}

M<N

(2)M(TM(X1,,XM)μ^N).
M,N2112MN

M,NM MN

μ^NDμN

(3)N(TN(X1,,XN)μ),
mnm=Nn=3MNM<NNN) tipo. Una ventaja adicional en su caso es que es menos costoso desde el punto de vista computacional.

MN

Fuentes :

n

mmn

aph416
fuente
3

Después de leer más sobre el tema, parece que hay una teoría establecida bajo "submuestreo" que permite hacer este tipo de estimación del intervalo de confianza. La referencia clave es "Politis, DN; Romano, JP (1994). Grandes regiones de confianza de muestra basadas en submuestras bajo supuestos mínimos. Annals of Statistics, 22, 2031-2050".

La idea es extraer muestras de tamaño M <N, "sin reemplazo" para cada muestra (pero con reemplazo en diferentes muestras de tamaño B), a partir de los N puntos de datos iniciales (series en mi caso), y estimar el intervalo de confianza de parámetro de interés utilizando estas muestras y el método de arranque común. Luego, escale el intervalo de confianza en función de la tasa de cambio en la varianza de la distribución subyacente del parámetro con cambios en M. Esa tasa es 1 / M en muchos entornos comunes, pero podría estimarse empíricamente si repetimos el procedimiento con algunas M diferentes valores y observe los cambios en el tamaño de los rangos entre percentiles.

Hazhir
fuente