He estado buscando en el paquete de arranque en R y aunque he encontrado una serie de buenos manuales sobre cómo usarlo, todavía no he encontrado nada que describa exactamente lo que está sucediendo "detrás de escena". Por ejemplo, en este ejemplo , la guía muestra cómo usar los coeficientes de regresión estándar como punto de partida para una regresión bootstrap, pero no explica qué está haciendo realmente el procedimiento bootstrap para derivar los coeficientes de regresión bootstrap. Parece que hay algún tipo de proceso iterativo que está sucediendo, pero parece que no puedo entender exactamente qué está sucediendo.
22
Respuestas:
Hay varios "sabores" o formas de bootstrap (por ejemplo, no paramétrico, paramétrico, remuestreo residual y muchos más). El bootstrap en el ejemplo se llama bootstrap no paramétrico , o remuestreo de casos (ver aquí , aquí , aquí y aquí para aplicaciones en regresión). La idea básica es que trate su muestra como población y extraiga repetidamente nuevas muestras con reemplazo . Todas las observaciones originales tienen la misma probabilidad de ser dibujadas en la nueva muestra. Luego calcula y almacena las estadísticas de interés, esta puede ser la media, la mediana o los coeficientes de regresión utilizando la muestra recién extraída. Esto se repite veces. En cada iteración, algunas observaciones de su muestra original se dibujan varias veces, mientras que algunas observaciones pueden no extraerse en absoluto. Después de iteraciones, tiene estimaciones de bootstrap almacenadas de las estadísticas de interés (por ejemplo, si y la estadística de interés es la media, tiene 1000 estimaciones de bootstrap de la media). Por último, se calculan estadísticas resumidas como la media, la mediana y la desviación estándar de las estimaciones de arranque.norte norte norte n = 1000 norte
Bootstrapping se usa a menudo para:
Existen varios métodos para calcular los intervalos de confianza basados en las muestras de bootstrap ( este documento proporciona una explicación y orientación). Un método muy simple para calcular un intervalo de confianza del 95% es simplemente calcular los percentiles empírico 2.5 y 97.5 de las muestras de bootstrap (este intervalo se denomina intervalo de percentil de bootstrap; consulte el código a continuación). El método del intervalo de percentil simple rara vez se usa en la práctica, ya que existen mejores métodos, como el bootstrap acelerado y con corrección de sesgos (BCa). Los intervalos BCa se ajustan tanto al sesgo como a la asimetría en la distribución de bootstrap.
El sesgo se estima simplemente como la diferencia entre la media de las muestras de rutina de carga almacenadas y las estimaciones originales.norte
Repitamos el ejemplo del sitio web pero usando nuestro propio ciclo incorporando las ideas que he esbozado anteriormente (dibujando repetidamente con reemplazo):
Y aquí está nuestra tabla resumen:
Algunas explicaciones
boot
boot
llamadas "error estándar" es la desviación estándar de las estimaciones de arranqueCompárelo con la salida de
boot
:Compare las columnas de "sesgo" y el "error estándar" con la columna "SD" de nuestra propia tabla de resumen. Nuestros intervalos de confianza del 95% son muy similares a los intervalos de confianza calculados
boot.ci
mediante el método del percentil (aunque no todos: observe el límite inferior del parámetro con el índice 9).fuente
Debe centrarse en la función que se pasa
boot
como parámetro "estadístico" y observar cómo se construye.El argumento "datos" recibirá un marco de datos completo, pero el argumento "i" recibirá una muestra de índices de fila generados por el "arranque" y tomados de 1: NROW (datos). Como puede ver en ese código, "i" se usa para crear una neo-muestra que se pasa
zeroinl
y luego solo se devuelven partes seleccionadas de sus resultados.Imaginemos que "i" es {1,2,3,3,3,6,7,7,10}. La función "[" devolverá solo aquellas filas con 3 copias de la fila 3 y 2 copias de la fila 7. Esa sería la base para un solo
zeroinl()
cálculo y luego los coeficientes se devolveránboot
como resultado de esa réplica del proceso. El número de tales réplicas es controlado por el parámetro "R".Dado que solo se devuelven los coeficientes de regresión
statistic
en este caso, laboot
función devolverá estos coeficientes acumulados como el valor de "t". Se pueden realizar más comparaciones con otras funciones del paquete de arranque.fuente