En las notas de MIT OpenCourseWare para 18.05 Introducción a la probabilidad y las estadísticas, primavera de 2014 (actualmente disponible aquí ), dice:
El método del percentil bootstrap es atractivo debido a su simplicidad. Sin embargo, depende de la distribución de arranque de función de que una muestra particular sea una buena aproximación a la distribución verdadera de . Rice dice del método del percentil: "Aunque esta ecuación directa de los cuantiles de la distribución de muestreo bootstrap con límites de confianza puede parecer inicialmente atractiva, su justificación es algo oscura". [2] En resumen, no use el método del percentil bootstrap . Utilice el bootstrap empírico (hemos explicado ambos con la esperanza de que no confunda el bootstrap empírico con el bootstrap percentil).
[2] John Rice, Estadística matemática y análisis de datos , 2ª edición, p. 272
Después de un poco de búsqueda en línea, esta es la única cita que he encontrado que establece directamente que el percentil bootstrap no debe usarse.
Lo que recuerdo haber leído del texto Principios y teoría para la minería de datos y el aprendizaje automático de Clarke et al. es que la justificación principal para el arranque es el hecho de que donde es el CDF empírico. (No recuerdo detalles más allá de esto).
¿Es cierto que no se debe usar el método de arranque por percentil? Si es así, ¿qué alternativas existen cuando no se conoce necesariamente (es decir, no hay suficiente información disponible para hacer un arranque paramétrico)?
Actualizar
Debido a que se ha solicitado una aclaración, el "arranque empírico" de estas notas del MIT se refiere al siguiente procedimiento: calculan y conlas estimaciones bootstrap deθy theta la muestra completa estimación deθ, y el intervalo de confianza estimado resultante sería[ θ -δ2, θ -δ1].
En esencia, la idea principal es la siguiente: bootstrapping empírica estima una cantidad proporcional a la diferencia entre la estimación puntual y el parámetro real, es , y utiliza esta diferencia para llegar a los límites inferior y superior de CI.
El "percentil bootstrap" se refiere a lo siguiente: el uso como el intervalo de confianza para θ . En esta situación, utilizamos bootstrapping para calcular estimaciones del parámetro de interés y tomar los percentiles de estas estimaciones para el intervalo de confianza.
fuente
Respuestas:
Hay algunas dificultades que son comunes a todas las estimaciones de bootstrapping no paramétricas de intervalos de confianza (IC), algunas que son más problemáticas tanto con el "empírico" (llamado "básico" en la
boot.ci()
función delboot
paquete R como en la Ref. 1 ) y las estimaciones de IC "percentil" (como se describe en la Ref. 2 ), y algunas que pueden exacerbarse con IC de percentil.TL; DR : en algunos casos, las estimaciones de CI de arranque por percentil podrían funcionar adecuadamente, pero si ciertas suposiciones no se cumplen, entonces el CI de percentil podría ser la peor opción, con el arranque empírico / básico la siguiente peor. Otras estimaciones de CI de arranque pueden ser más confiables, con una mejor cobertura. Todo puede ser problemático. Mirar las gráficas de diagnóstico, como siempre, ayuda a evitar posibles errores incurridos al simplemente aceptar la salida de una rutina de software.
Configuración de Bootstrap
Generalmente siguiendo la terminología y los argumentos de la Ref. 1 , tenemos una muestra de datos extraerse de variables aleatorias independientes e idénticamente distribuidos Y i compartir una función de distribución acumulativa F . La función de distribución empírica (FED) construido a partir de la muestra de datos es F . Estamos interesados en una característica θ de la población, estimada por una estadística T cuyo valor en la muestra es t . Nos gustaría saber qué tan bien T estima θy1,...,yn Yi F F^ θ T t T θ , por ejemplo, la distribución de .(T−θ)
Usos de arranque no paramétricas de muestreo del FED F al muestreo imitador de F , teniendo R muestras de cada uno de tamaño n con el reemplazo de la y i . Los valores calculados a partir de las muestras de bootstrap se denotan con "*". Por ejemplo, la estadística T calculada en la muestra de arranque j proporciona un valor T ∗ j .F^ F R n yi T T∗j
CIs de arranque empírico / básico versus percentil
La empírica / bootstrap Basic utiliza la distribución de entre los R muestras de arranque de F para estimar la distribución de ( T - θ ) dentro de la población descrita por F en sí. Por lo tanto, sus estimaciones de CI se basan en la distribución de ( T ∗ - t ) , donde t es el valor de la estadística en la muestra original.(T∗−t) R F^ (T−θ) F (T∗−t) t
Este enfoque se basa en el principio fundamental de bootstrapping ( Ref. 3 ):
El arranque percentil en su lugar utiliza los cuantiles de mismos valores para determinar el CI. Estas estimaciones pueden ser bastante diferentes si hay sesgo o sesgo en la distribución de ( T - θ ) .T∗j (T−θ)
Digamos que hay un sesgo observado tal que: ˉ T ∗ = t + B ,B
donde es la media de T ∗ j . Para concreción, digamos que los percentiles 5 y 95 de T ∗ j se expresan como ˉ T ∗ - δ 1 y ˉ T ∗ + δ 2 , donde ˉ T ∗ es la media sobre las muestras de bootstrap y δ 1 , δ 2 son cada positivo y potencialmente diferente para permitir sesgo. Las estimaciones basadas en percentiles 5º y 95º de CI se darían directamente, respectivamente, por:T¯∗ T∗j T∗j T¯∗−δ1 T¯∗+δ2 T¯∗ δ1,δ2
Las estimaciones de CI del percentil 5 y 95 por el método de arranque empírico / básico serían respectivamente ( Ref. 1 , eq. 5.6, página 194):
Por lo tanto, los IC basados en percentiles interpretan mal el sesgo y cambian las direcciones de las posiciones potencialmente asimétricas de los límites de confianza en torno a un centro doblemente sesgado . Los IC porcentuales de bootstrapping en tal caso no representan la distribución de .(T−θ)
Este comportamiento se ilustra muy bien en esta página , para el arranque de una estadística con un sesgo tan negativo que la estimación de la muestra original está por debajo del IC del 95% basado en el método empírico / básico (que incluye directamente la corrección de sesgo adecuada). ¡Los IC del 95% basados en el método del percentil, dispuestos alrededor de un centro doblemente sesgado negativamente, en realidad están por debajo de la estimación puntual negativamente sesgada de la muestra original!
¿Nunca se debe usar el bootstrap percentil?
Eso puede ser una exageración o una subestimación, dependiendo de su perspectiva. Si puede documentar sesgos y sesgos mínimos, por ejemplo, visualizando la distribución de con histogramas o gráficos de densidad, el bootstrap percentil debería proporcionar esencialmente el mismo CI que el CI empírico / básico. Estos son probablemente ambos mejores que la simple aproximación normal al IC.(T∗−t)
Sin embargo, ninguno de los enfoques proporciona la precisión en la cobertura que pueden proporcionar otros enfoques de arranque. Efron desde el principio reconoció las posibles limitaciones de los IC de percentiles, pero dijo: "Principalmente nos contentaremos con dejar que los diversos grados de éxito de los ejemplos hablen por sí mismos". ( Ref. 2 , página 3)
El trabajo posterior, resumido por ejemplo por DiCiccio y Efron ( Ref. 4 ), desarrolló métodos que "mejoran en un orden de magnitud sobre la precisión de los intervalos estándar" proporcionados por los métodos empíricos / básicos o percentiles. Por lo tanto, se podría argumentar que no se deben utilizar los métodos empíricos / básicos ni los percentiles, si le interesa la precisión de los intervalos.
En casos extremos, por ejemplo, el muestreo directo de una distribución lognormal sin transformación, ninguna estimación de CI de arranque podría ser confiable, como ha señalado Frank Harrell .
¿Qué limita la fiabilidad de estos y otros CI de arranque?
Varios problemas pueden hacer que los CI de arranque no sean confiables. Algunos se aplican a todos los enfoques, otros pueden aliviarse mediante enfoques distintos de los métodos empíricos / básicos o percentiles.
La primera, en general, es cuestión de qué tan bien la distribución empírica F representa la distribución de la población F . Si no es así, entonces ningún método de arranque será confiable. En particular, el arranque para determinar cualquier cosa cercana a los valores extremos de una distribución puede no ser confiable. Este problema se discute en otra parte de este sitio, por ejemplo aquí y aquí . Los pocos discretas, valores, disponibles en las colas de F para cualquier muestra particular pueden no representar las colas de una continua F muy bien. Un caso extremo pero ilustrativo es tratar de usar bootstrapping para estimar la estadística de orden máxima de una muestra aleatoria de un uniformeF^ F F^ F Distribución U [ 0 , θ ] , como se explica muy bienaquí. Tenga en cuenta que el IC de 95% o 99% de bootstrapped se encuentra en la cola de una distribución y, por lo tanto, podría sufrir este problema, particularmente con tamaños de muestra pequeños.U[0,θ]
En segundo lugar, no hay ninguna garantía de que el muestreo de cualquier cantidad de F tendrá la misma distribución que el muestreo desde F . Sin embargo, esa suposición subyace en el principio fundamental de bootstrapping. Las cantidades con esa propiedad deseable se denominan fundamentales . Como AdamO explica :F^ F
Por ejemplo, si hay sesgo es importante saber que el muestreo de alrededor de θ es el mismo que el muestreo de F alrededor de t . Y este es un problema particular en el muestreo no paramétrico; como Ref. 1 lo pone en la página 33:F θ F^ t
Entonces, lo mejor que suele ser posible es una aproximación. Sin embargo, este problema a menudo puede abordarse adecuadamente. Es posible estimar qué tan cerca está una cantidad muestreada de pivote, por ejemplo con gráficos de pivote como lo recomiendan Canty et al . Estos pueden mostrar cómo las distribuciones de las estimaciones de arranque varían con t , o qué tan bien una transformación h proporciona una cantidad ( h ( T ∗ ) - h ( t ) ) que es fundamental. Los métodos para mejorar los CI de arranque pueden intentar encontrar una transformación h(T∗−t) t h (h(T∗)−h(t)) h tal que está más cerca de ser crucial para estimar los IC en la escala transformada, luego se transforma nuevamente a la escala original.(h(T∗)−h(t))
boot.ci()
En casos extremos, uno podría necesitar recurrir a bootstrapping dentro de las muestras bootstrap para proporcionar un ajuste adecuado de los intervalos de confianza. Este "Bootstrap doble" se describe en la Sección 5.6 de la Ref. 1 , con otros capítulos en ese libro que sugieren formas de minimizar sus demandas computacionales extremas.
Davison, AC y Hinkley, DV Bootstrap Methods and its Application, Cambridge University Press, 1997 .
Efron, B. Métodos de Bootstrap: Otra mirada a Jacknife, Ann. Estadístico. 7: 1-26, 1979 .
Fox, J. y Weisberg, S. Modelos de regresión de Bootstrapping en R. Un apéndice de An R Companion to Applied Regression, Segunda edición (Sage, 2011). Revisión a partir del 10 de octubre de 2017 .
DiCiccio, TJ y Efron, B. Intervalos de confianza de Bootstrap. Stat. Sci. 11: 189-228, 1996 .
Canty, AJ, Davison, AC, Hinkley, DV y Ventura, V. Diagnósticos y remedios de Bootstrap. Lata. J. Stat. 34: 5-27, 2006 .
fuente
Algunos comentarios sobre terminología diferente entre MIT / Rice y el libro de Efron
Creo que la respuesta de EdM hace un trabajo fantástico al responder la pregunta original de los OP, en relación con las notas de clase del MIT. Sin embargo, el OP también cita el libro de Efrom (2016) Computer Age Statistical Inference que utiliza definiciones ligeramente diferentes que pueden generar confusión.
Capítulo 11 - Ejemplo de correlación de muestra de puntaje del alumno
Bootstrap de intervalo estándar
Luego define la siguiente rutina de arranque de intervalo estándar :
Desviación estándar empírica de los valores de arranque:
Esta definición parece diferente a la utilizada en la respuesta de EdM:
Bootstrap de percentil
Aquí, ambas definiciones parecen alineadas. De Efron página 186:
En este ejemplo, estos son 0.118 y 0.758 respectivamente.
Citando a EdM:
Comparar el método estándar y el percentil como lo define Efron
Basado en sus propias definiciones, Efron hace un esfuerzo considerable para argumentar que el método del percentil es una mejora. Para este ejemplo, los CI resultantes son:
Conclusión
Yo diría que la pregunta original del OP está alineada con las definiciones proporcionadas por EdM. Las ediciones realizadas por el OP para aclarar las definiciones están alineadas con el libro de Efron y no son exactamente las mismas para CI de arranque empírico vs estándar.
Comentarios son bienvenidos
fuente
boot.ci()
boot.ci()
: "Los intervalos normales también usan la corrección de sesgo bootstrap". Así que eso parece ser una diferencia del "arranque de intervalo estándar" descrito por Efron.Estoy siguiendo su directriz: "Buscando una respuesta basada en fuentes confiables y / u oficiales".
El bootstrap fue inventado por Brad Efron. Creo que es justo decir que es un estadístico distinguido. Es un hecho que él es profesor en Stanford. Creo que eso hace que sus opiniones sean creíbles y oficiales.
Creo que la Inferencia estadística de la era de la computadora de Efron y Hastie es su último libro y, por lo tanto, debería reflejar sus puntos de vista actuales. De p. 204 (11.7, notas y detalles),
Si lee el Capítulo 11, "Intervalos de confianza de Bootstrap", le da 4 métodos para crear intervalos de confianza de bootstrap. El segundo de estos métodos es (11.2) El Método del percentil. Los métodos tercero y cuarto son variantes del método de percentil que intentan corregir lo que Efron y Hastie describen como un sesgo en el intervalo de confianza y para lo cual dan una explicación teórica.
Por otro lado, no puedo decidir si hay alguna diferencia entre lo que las personas del MIT llaman CI de arranque empírico y CI porcentual. Puede que tenga un pedo cerebral, pero veo el método empírico como el método del percentil después de restar una cantidad fija. Eso no debería cambiar nada. Probablemente estoy leyendo mal, pero estaría realmente agradecido si alguien puede explicar cómo estoy entendiendo mal su texto.
De todos modos, la autoridad principal no parece tener un problema con los IC de percentiles. También creo que su comentario responde a las críticas de Bootstrap CI que algunas personas mencionan.
MAYOR AGREGAR
Comentarios sobre la referencia del MIT Primero, introduzcamos los datos del MIT en R. Hice un simple trabajo de cortar y pegar sus muestras de bootstrap y lo guardé en boot.txt.
Ocultar orig.boot = c (30, 37, 36, 43, 42, 43, 43, 46, 41, 42) boot = read.table (file = "boot.txt") significa = as.numeric (lapply (boot , mean)) # lapply crea listas, no vectores. Lo uso SIEMPRE para marcos de datos. mu = mean (orig.boot) del = sort (significa - mu) # las diferencias mu significa del y más
Ocultar mu - sort (del) [3] mu - sort (del) [18] Entonces obtenemos la misma respuesta que ellos. En particular, tengo el mismo percentil 10 y 90. Quiero señalar que el rango del percentil 10 al 90 es 3. Esto es lo mismo que el MIT.
¿Cuáles son mis medios?
Ocultar significa ordenar (significa) Estoy obteniendo diferentes medios. Punto importante: mi 10 y 90 significan 38.9 y 41.9. Esto es lo que esperaría. Son diferentes porque estoy considerando distancias desde 40.3, por lo que estoy invirtiendo el orden de resta. Tenga en cuenta que 40.3-38.9 = 1.4 (y 40.3 - 1.6 = 38.7). Entonces, lo que ellos llaman el bootstrap percentil proporciona una distribución que depende de los medios reales que obtengamos y no de las diferencias.
Punto clave El bootstrap empírico y el bootstrap percentil serán diferentes, ya que lo que llaman el bootstrap empírico será el intervalo [x ∗ ¯ − δ.1, x ∗ ¯ − δ.9] [x ∗ ¯ − δ.1, x ∗ ¯ − δ.9] mientras que el percentil bootstrap tendrá el intervalo de confianza [x ∗ ¯ − δ.9, x ∗ ¯ − δ.1] [x ∗ ¯ − δ.9, x ∗ ¯ − δ.1 ] Por lo general, no deberían ser tan diferentes. Tengo mis pensamientos sobre cuál preferiría, pero no soy la fuente definitiva que solicita OP. Experimento de pensamiento: si los dos convergen si aumenta el tamaño de la muestra. Observe que hay 210210 muestras posibles de tamaño 10. No nos volvamos locos, pero ¿qué pasa si tomamos 2000 muestras, un tamaño que generalmente se considera suficiente?
Ocultar set.seed (1234) # reproducible boot.2k = matriz (NA, 10,2000) para (i en c (1: 2000)) {boot.2k [, i] = muestra (arranque original, 10, reemplazar = T)} mu2k = sort (apply (boot.2k, 2, mean)) Veamos mu2k
Ocultar resumen (mu2k) media (mu2k) -mu2k [200] media (mu2k) - mu2k [1801] Y los valores reales-
Ocultar mu2k [200] mu2k [1801] Entonces, ahora, lo que el MIT llama el arranque empírico da un intervalo de confianza del 80% de [, 40.3 -1.87,40.3 +1.64] o [38.43,41.94] y su mala distribución de percentiles da [38.5, 42] Por supuesto, esto tiene sentido porque la ley de los grandes números dirá en este caso que la distribución debería converger a una distribución normal. Por cierto, esto se discute en Efron y Hastie. El primer método que dan para calcular el intervalo de arranque es usar mu = / - 1.96 sd. Como señalan, para un tamaño de muestra lo suficientemente grande, esto funcionará. Luego dan un ejemplo para el cual n = 2000 no es lo suficientemente grande como para obtener una distribución aproximadamente normal de los datos.
Conclusiones En primer lugar, quiero establecer el principio que uso para decidir las cuestiones de denominación. "Es mi fiesta la que puedo llorar si quiero". Aunque originalmente fue enunciado por Petula Clark, creo que también aplica estructuras de nombres. Entonces, con sincera deferencia al MIT, creo que Bradley Efron merece nombrar los diversos métodos de arranque como lo desee. Qué él ha hecho ? No puedo encontrar ninguna mención en Efron de 'arranque empírico', solo percentil. Así que humildemente estaré en desacuerdo con Rice, MIT, et al. También quisiera señalar que, según la ley de los grandes números, tal como se usa en la conferencia del MIT, lo empírico y el percentil deberían converger al mismo número. Para mi gusto, el bootstrap percentil es intuitivo, justificado y lo que el inventor de bootstrap tenía en mente. Añadiría que me tomé el tiempo para hacer esto solo para mi propia edificación, no para nada más. En particular, No escribí Efron, que probablemente sea lo que OP debería hacer. Estoy más dispuesto a corregirme.
fuente
Como ya se señaló en respuestas anteriores, el "arranque empírico" se llama "arranque básico" en otras fuentes (incluida la función R boot.ci ), que es idéntico al "arranque porcentual" invertido en la estimación puntual. Venables y Ripley escriben ("Modern Applied Statstics with S", 4ª ed., Springer, 2002, p. 136):
En ambos casos de uso, el bootstrap BCa tiene la mayor probabilidad de cobertura entre los métodos de bootstrap, y el bootstrap percentil tiene una mayor probabilidad de cobertura que el bootstrap básico / empírico.
fuente