Supongamos que tengo un conjunto de datos de muestra de una distribución desconocida o compleja, y quiero realizar alguna inferencia en una estadística de los datos. Mi inclinación por defecto es simplemente generar un montón de muestras de arranque con el reemplazo, y calcular mi estadística de en cada muestra de arranque para crear una distribución estimada para .
¿Cuáles son ejemplos donde esta es una mala idea?
Por ejemplo, un caso en el que la ejecución ingenua de este arranque podría fallar es si estoy tratando de usar el arranque en datos de series temporales (por ejemplo, para probar si tengo una autocorrelación significativa). El arranque ingenua descrito anteriormente (la generación de la º punto de datos de la serie de muestras de arranque enésimo mediante el muestreo con reemplazo de mi serie original) sería (creo) ser poco aconsejable, ya que ignora la estructura en mi serie de tiempo original, por lo que obtenga técnicas de arranque más sofisticadas como el arranque en bloque.
Para decirlo de otra manera, ¿qué hay para el bootstrap además de "muestreo con reemplazo"?
Respuestas:
Si la cantidad de interés, por lo general funcional de una distribución, es razonablemente uniforme y sus datos se encuentran en ID, generalmente se encuentra en un territorio bastante seguro. Por supuesto, hay otras circunstancias en las que el bootstrap también funcionará.
Lo que significa para el bootstrap "fallar"
Hablando en términos generales, el propósito del bootstrap es construir una distribución de muestreo aproximada para la estadística de interés. No se trata de una estimación real del parámetro. Por lo tanto, si la estadística de interés (en algunos y centrado) es y en distribución, nos gustaría que nuestra distribución bootstrap sea converger a la distribución de . Si no tenemos esto, entonces no podemos confiar en las inferencias hechas.X^n X^n→X∞ X∞
El ejemplo canónico de cuándo la rutina de arranque puede fallar, incluso en un marco iid es cuando se trata de aproximar la distribución de muestreo de una estadística de orden extremo. A continuación hay una breve discusión.
Estadística de orden máxima de una muestra aleatoria de una distribuciónU[0,θ]
Deje ser una secuencia de variables aleatorias uniformes iid en . Deje . La distribución de es (Tenga en cuenta que, mediante un argumento muy simple, esto también muestra que en probabilidad, e incluso, casi con seguridad , si las variables aleatorias se definen en el mismo espacio).X1,X2,… [0,θ] X(n)=max1≤k≤nXk X(n)
Un cálculo elemental produce o, en otras palabras, converge en distribución a una variable aleatoria exponencial con media .
Ahora, formamos un (ingenua) de arranque estimación de la distribución de por remuestreo con el reemplazo de conseguir y el uso de la distribución de condicional en .n(θ−X(n)) X1,…,Xn X⋆1,…,X⋆n n(X(n)−X⋆(n)) X1,…,Xn
Pero, observe que con probabilidad , por lo que la distribución de arranque tiene una masa puntual en cero incluso asintóticamente a pesar de El hecho de que la distribución limitante real es continua.X⋆(n)=X(n) 1−(1−1/n)n→1−e−1
Más explícitamente, aunque la verdadera distribución limitante es exponencial con media , la distribución limitante de arranque coloca una masa puntual en cero de tamaño independientemente del valor real de . Al tomar suficientemente grande, podemos hacer que la probabilidad de la verdadera distribución limitante sea arbitraria pequeña para cualquier intervalo fijo , sin embargo, el bootstrap informará ( ¡ todavía !) Que hay al menos una probabilidad de 0.632 en este intervalo! A partir de esto, debe quedar claro que el bootstrap puede comportarse arbitrariamente mal en esta configuración.θ 1−e−1≈0.632 θ θ [0,ε)
En resumen, el bootstrap falla (miserablemente) en este caso. Las cosas tienden a ir mal cuando se trata de parámetros en el borde del espacio de parámetros.
Un ejemplo de una muestra de variables aleatorias normales
Hay otros ejemplos similares del fracaso del bootstrap en circunstancias sorprendentemente simples.
Considere una muestra de donde el espacio de parámetros para está restringido a . El MLE en este caso es . Nuevamente, usamos la estimación de bootstrap . Nuevamente, se puede demostrar que la distribución de (condicional en la muestra observada) no converge a la misma distribución limitante que .X1,X2,… N(μ,1) μ [0,∞) X^n=max(X¯,0) X^⋆n=max(X¯⋆,0) n−−√(X^⋆n−X^n) n−−√(X^n−μ)
Matrices intercambiables
Quizás uno de los ejemplos más dramáticos es para una matriz intercambiable. Deje que sea una matriz de variables aleatorias tales que, por cada par de matrices de permutación y , las matrices y tienen la misma distribución conjunta. Es decir, permutar filas y columnas de mantiene la distribución invariable. (Puede pensar en un modelo de efectos aleatorios bidireccionales con una observación por celda como ejemplo, aunque el modelo es mucho más general).Y=(Yij) P Q Y PYQ Y
Supongamos que deseamos estimar un intervalo de confianza para la media (debido al supuesto de intercambiabilidad descrito anteriormente de las medias de todas las las celdas deben ser iguales).μ=E(Yij)=E(Y11)
McCullagh (2000) consideró dos formas naturales diferentes (es decir, ingenuas) de arrancar tal conjunto. Ninguno de ellos obtiene la varianza asintótica para la media muestral correcta. También considera algunos ejemplos de una matriz intercambiable unidireccional y regresión lineal.
Referencias
Desafortunadamente, el tema no es trivial, por lo que ninguno de estos son lecturas particularmente fáciles.
fuente
El siguiente libro tiene un capítulo (Capítulo 9) dedicado a "Cuando falla Bootstrapping junto con remedios para fallas":
MR Chernick, Métodos Bootstrap: una guía para profesionales e investigadores , 2ª ed. Hoboken NJ: Wiley-Interscience, 2008.
Los temas son:
fuente
El arranque ingenuo depende de que el tamaño de la muestra sea grande, de modo que el CDF empírico para los datos sea una buena aproximación al CDF "verdadero". Esto asegura que el muestreo del CDF empírico es muy similar al muestreo del CDF "verdadero". El caso extremo es cuando solo ha muestreado un punto de datos: el arranque no logra nada aquí. Se volverá cada vez más inútil a medida que se acerque a este caso degenerado.
El arranque ingenuo no necesariamente fallará en el análisis de series de tiempo (aunque puede ser ineficiente), si modela la serie utilizando funciones básicas de tiempo continuo (tales como polinomios de leyenda) para un componente de tendencia, y funciones seno y coseno de tiempo continuo para ciclo cíclico componentes (más el término de error de ruido normal). Luego, simplemente ingresa la cantidad de veces que se muestrea la función de probabilidad. No es un desastre para bootstrapping aquí.
Cualquier modelo de autocorrelación o ARIMA tiene una representación en este formato anterior: este modelo es simplemente más fácil de usar y creo que entiendo e interpreto (ciclos fáciles de entender en funciones seno y coseno, coeficientes difíciles de entender de un modelo ARIMA). Por ejemplo, la función de autocorrelación es la transformada inversa de Fourier del espectro de potencia de una serie temporal.
fuente