Cuando leí acerca de cómo aproximar la distribución de la muestra significa que encontré el método de arranque no paramétrico. Aparentemente uno puede aproximar la distribución de por la distribución de ˉ X ∗ n - ˉ X n , donde ˉ X ∗ n denota la media muestral de la muestra de arranque.
Mi pregunta es: ¿Necesito el centrado? ¿Para qué?
¿No podría simplemente aproximar por P ( ˉ X ∗ n ≤ x ) ?
distributions
bootstrap
resampling
centering
Christin
fuente
fuente
Respuestas:
Sí, puede aproximar por P ( ˉ X ∗ n ≤ x ) pero no es óptimo. Esta es una forma del percentil bootstrap. Sin embargo, el bootstrap percentil no funciona bien si está tratando de hacer inferencias sobre la media de la población a menos que tenga un gran tamaño de muestra. (Funciona bien con muchos otros problemas de inferencia, incluso cuando el tamaño del tamaño de la muestra es pequeño). Tomo esta conclusión de las Estadísticas modernas de Wilcox para las ciencias sociales y del comportamiento.P ( X¯norte≤ x ) P ( X¯∗norte≤ x ) , CRC Press, 2012. Me temo que una prueba teórica me supera. .
Una variante en el enfoque de centrado va al siguiente paso y escala su estadística de bootstrap centrada con la desviación estándar de muestra y el tamaño de la muestra, calculando de la misma manera que en la estadística. Los cuantiles de la distribución de estas estadísticas t se pueden usar para construir un intervalo de confianza o realizar una prueba de hipótesis. Este es el método bootstrap-t y proporciona resultados superiores al hacer inferencias sobre la media.
Considere los resultados de la simulación a continuación, que muestran que con una distribución mixta muy sesgada, los intervalos de confianza de este método contienen el valor verdadero con más frecuencia que el método de arranque por percentil o una inversión tradicional de estadística sin arranque.
Esto proporciona lo siguiente (conf.t es el método bootstrap t; conf.p es el método bootstrap percentil).
Con un solo ejemplo de una distribución sesgada:
Esto da lo siguiente. Tenga en cuenta que "conf.t" - la versión bootstrap t - ofrece un intervalo de confianza más amplio que los otros dos. Básicamente, es mejor para responder a la distribución inusual de la población.
Finalmente, aquí hay mil simulaciones para ver qué versión ofrece intervalos de confianza que con frecuencia son correctos:
Esto proporciona los resultados a continuación: los números son los tiempos fuera de 1,000 que el intervalo de confianza contiene el valor verdadero de una población simulada. Tenga en cuenta que la verdadera tasa de éxito de cada versión es considerablemente inferior al 95%.
fuente