¿Es necesario centrar cuando se inicia la muestra de arranque?

Cuando leí acerca de cómo aproximar la distribución de la muestra significa que encontré el método de arranque no paramétrico. Aparentemente uno puede aproximar la distribución de por la distribución de , donde $\bar{X}_n-\mu$ $\bar{X}_n^*-\bar{X}_n$ $\bar{X}_n^*$ denota la media muestral de la muestra de arranque.

Mi pregunta es: ¿Necesito el centrado? ¿Para qué?

¿No podría simplemente aproximar por ? $\mathbb{P}\left(\bar{X}_n \leq x\right)$ $\mathbb{P}\left(\bar{X}_n^* \leq x\right)$

distributions bootstrap resampling centering Christin
fuente

No veo por qué necesitamos centrar nada. Todas las muestras discutidas aquí son del mismo tamaño, ¿verdad?

Bitwise

Mismo tamaño, sí. Tampoco veo el motivo del centrado. ¿Alguien podría llegar a una explicación matemática por qué o por qué no tenemos que hacer eso? Quiero decir, ¿podemos probar que el bootstrap funciona o no funciona si no nos centramos?

Christin

(Por cierto, una prueba de que el bootstrap funciona para el caso en el que nos centramos se puede encontrar en Bickel, PJ y DA Freedman (1981), Alguna teoría asintótica para el bootstrap .)

Christin

Tengo curiosidad: ¿por qué se rechaza esta pregunta?

cardenal

Tal vez hacemos la entrada para poder usar el Teorema del límite central que nos da que

converge a la misma distribución que

n^{\frac{1}{2}} ({\bar{X}}_{n} - μ)

$n^{\frac{1}{2}}(\bar{X}_n-\mu)$

, es decir, a

. Tal vez no haya asintóticos disponibles para el caso sin centrar que nos digan si funciona.

n^{\frac{1}{2}} ({\bar{X}}_{n}^{*} - {\bar{X}}_{n})

$n^{\frac{1}{2}}(\bar{X}_n^*-\bar{X}_n)$

N (0, σ^{2})

$\mathcal{N}(0,\sigma^2)$

Kelu

Sí, puede aproximar por pero no es óptimo. Esta es una forma del percentil bootstrap. Sin embargo, el bootstrap percentil no funciona bien si está tratando de hacer inferencias sobre la media de la población a menos que tenga un gran tamaño de muestra. (Funciona bien con muchos otros problemas de inferencia, incluso cuando el tamaño del tamaño de la muestra es pequeño). Tomo esta conclusión de las Estadísticas modernas de Wilcox para las ciencias sociales y del comportamiento. $\mathbb{P}\left(\bar{X}_n \leq x\right)$ $\mathbb{P}\left(\bar{X}_n^* \leq x\right)$ , CRC Press, 2012. Me temo que una prueba teórica me supera. .

Una variante en el enfoque de centrado va al siguiente paso y escala su estadística de bootstrap centrada con la desviación estándar de muestra y el tamaño de la muestra, calculando de la misma manera que en la estadística. Los cuantiles de la distribución de estas estadísticas t se pueden usar para construir un intervalo de confianza o realizar una prueba de hipótesis. Este es el método bootstrap-t y proporciona resultados superiores al hacer inferencias sobre la media.

$s^*$

$T^*=\frac{\bar{X}_n^*-\bar{X}}{s^*/\sqrt{n}}$

$T^*$ pueden hacer un intervalo de confianza para $\mu$ por:

$\bar{X}-T^*_{0.975} \frac{s}{\sqrt{n}}, \bar{X}-T^*_{0.025} \frac{s}{\sqrt{n}}$

Considere los resultados de la simulación a continuación, que muestran que con una distribución mixta muy sesgada, los intervalos de confianza de este método contienen el valor verdadero con más frecuencia que el método de arranque por percentil o una inversión tradicional de estadística sin arranque.

compare.boots <- function(samp, reps = 599){
    # "samp" is the actual original observed sample
    # "s" is a re-sample for bootstrap purposes

    n <- length(samp)

    boot.t <- numeric(reps)
    boot.p <- numeric(reps)

    for(i in 1:reps){
        s <- sample(samp, replace=TRUE)
        boot.t[i] <- (mean(s)-mean(samp)) / (sd(s)/sqrt(n))
        boot.p[i] <- mean(s)
    }

    conf.t <- mean(samp)-quantile(boot.t, probs=c(0.975,0.025))*sd(samp)/sqrt(n)
    conf.p <- quantile(boot.p, probs=c(0.025, 0.975))

    return(rbind(conf.t, conf.p, "Trad T test"=t.test(samp)$conf.int))
}

# Tests below will be for case where sample size is 15
n <- 15

# Create a population that is normally distributed
set.seed(123)
pop <- rnorm(1000,10,1)
my.sample <- sample(pop,n)
# All three methods have similar results when normally distributed
compare.boots(my.sample)

Esto proporciona lo siguiente (conf.t es el método bootstrap t; conf.p es el método bootstrap percentil).

          97.5%     2.5%
conf.t      9.648824 10.98006
conf.p      9.808311 10.95964
Trad T test 9.681865 11.01644

Con un solo ejemplo de una distribución sesgada:

# create a population that is a mixture of two normal and one gamma distribution
set.seed(123)
pop <- c(rnorm(1000,10,2),rgamma(3000,3,1)*4, rnorm(200,45,7))
my.sample <- sample(pop,n)
mean(pop)
compare.boots(my.sample)

Esto da lo siguiente. Tenga en cuenta que "conf.t" - la versión bootstrap t - ofrece un intervalo de confianza más amplio que los otros dos. Básicamente, es mejor para responder a la distribución inusual de la población.

> mean(pop)
[1] 13.02341
> compare.boots(my.sample)
                97.5%     2.5%
conf.t      10.432285 29.54331
conf.p       9.813542 19.67761
Trad T test  8.312949 20.24093

Finalmente, aquí hay mil simulaciones para ver qué versión ofrece intervalos de confianza que con frecuencia son correctos:

# simulation study
set.seed(123)
sims <- 1000
results <- matrix(FALSE, sims,3)
colnames(results) <- c("Bootstrap T", "Bootstrap percentile", "Trad T test")

for(i in 1:sims){
    pop <- c(rnorm(1000,10,2),rgamma(3000,3,1)*4, rnorm(200,45,7))
    my.sample <- sample(pop,n)
    mu <- mean(pop)
    x <- compare.boots(my.sample)
    for(j in 1:3){
        results[i,j] <- x[j,1] < mu & x[j,2] > mu
    }
}

apply(results,2,sum)

Esto proporciona los resultados a continuación: los números son los tiempos fuera de 1,000 que el intervalo de confianza contiene el valor verdadero de una población simulada. Tenga en cuenta que la verdadera tasa de éxito de cada versión es considerablemente inferior al 95%.

     Bootstrap T Bootstrap percentile          Trad T test 
             901                  854                  890

Peter Ellis
fuente

Gracias, eso fue muy informativo. Este .pdf (de una lección) describe una advertencia para su conclusión: psychology.mcmaster.ca/bennett/boot09/percentileT.pdf Este es un resumen de lo que dice Bennet: muchos conjuntos de datos consisten en números que son> = 0 (es decir, datos eso se puede contar), en cuyo caso el IC no debe contener valores negativos. Usando el método bootstrap-t esto puede ocurrir, haciendo que el intervalo de confianza no sea plausible. El requisito de que los datos sean> = 0 infringe el supuesto de distribución normal. Esto no es un problema cuando se construye un CI de arranque percentil

Hannes Ziegler

¿Es necesario centrar cuando se inicia la muestra de arranque?

Respuestas: