¿Es posible interpretar el bootstrap desde una perspectiva bayesiana?

43

Ok, esta es una pregunta que me mantiene despierto por la noche.

¿Se puede interpretar que el procedimiento bootstrap se aproxima a algún procedimiento bayesiano (excepto el bootstrap bayesiano)?

Me gusta mucho la "interpretación" bayesiana de las estadísticas, que me parece muy coherente y fácil de entender. Sin embargo, también tengo una debilidad por el procedimiento bootstrap que es tan simple, pero ofrece inferencias razonables en muchas situaciones. Sin embargo, estaría más contento con el bootstrapping si supiera que el bootstrap se aproxima a una distribución posterior en algún sentido.

Sé del "bootstrap bayesiano" (Rubin, 1981), pero desde mi punto de vista, esa versión del bootstrap es tan problemática como el bootstrap estándar. El problema es el supuesto de modelo realmente peculiar que usted hace, tanto al hacer el bootstrap clásico como al bayesiano, es decir, los posibles valores de la distribución son solo los valores que ya he visto. ¿Cómo pueden estos supuestos extraños del modelo producir las inferencias muy razonables que producen los procedimientos de arranque? He estado buscando artículos que hayan investigado las propiedades de la rutina de arranque (por ejemplo, Weng, 1989) pero no he encontrado ninguna explicación clara con la que estoy satisfecho.

Referencias

Donald B. Rubin (1981). El bootstrap bayesiano. Ana. Estadístico. Volumen 9, número 1, 130-134.

Chung-Sing Weng (1989). En una propiedad asintótica de segundo orden de la media bayesiana Bootstrap. Los Anales de Estadísticas , vol. 17, núm. 2, págs. 705-710.

Rasmus Bååth
fuente
3
Acabo de escribir una publicación de blog sobre "el bootstrap como modelo bayesiano" ( sumsar.net/blog/2015/04/… ) que explora las "explicaciones" bayesianas del bootstrap. No responde directamente a las preguntas anteriores, pero espero que aclare qué es el bootstrap y qué hace.
Rasmus Bååth
Lea Muliere y Secchi (1996) inferencia predictiva no paramétrica bayesiana y técnicas de arranque. Thay abordar exactamente su punto!

Respuestas:

30

La sección 8.4 de Los elementos del aprendizaje estadístico de Hastie, Tibshirani y Friedman es "Relación entre Bootstrap y la inferencia bayesiana". Eso podría ser justo lo que estás buscando. Creo que este libro está disponible gratuitamente a través de un sitio web de Stanford, aunque no tengo el enlace a mano.

Editar:

Aquí hay un enlace al libro, que los autores han puesto a disposición gratuitamente en línea:

http://www-stat.stanford.edu/~tibs/ElemStatLearn/

En la página 272, los autores escriben:

En este sentido, la distribución bootstrap representa una distribución posterior (aproximada) no paramétrica, no informativa para nuestro parámetro. Pero esta distribución de arranque se obtiene sin dolor, sin tener que especificar formalmente un previo y sin tener que tomar muestras de la distribución posterior. Por lo tanto, podríamos pensar en la distribución de bootstrap como un Bayes posterior de "hombre pobre". Al perturbar los datos, el bootstrap se aproxima al efecto bayesiano de perturbar los parámetros, y generalmente es mucho más simple de llevar a cabo.

Una pieza más del rompecabezas se encuentra en esta pregunta validada cruzada que menciona la desigualdad Dvoretzky-Kiefer-Wolfowitz que "muestra [...] que la función de distribución empírica converge uniformemente con la función de distribución verdadera exponencialmente rápido en probabilidad".

Así que, en general, la rutina de arranque no paramétrica podría verse como un método asintótico que produce "una distribución posterior (aproximada) no paramétrica, no informativa para nuestro parámetro" y donde esta aproximación mejora "exponencialmente rápido" a medida que aumenta el número de muestras.

EdM
fuente
3
Si bien siempre apreciamos las referencias a material relevante, esta respuesta mejoraría enormemente si se incluyera un breve resumen de esa sección.
cardenal
1
El último bit de esa sección podría ser más útil: el bootstrap es una distribución posterior aproximada, no paramétrica, no informativa para el parámetro estimado. Vale la pena leer toda la sección.
Fraijo
2
Gracias por el enlace! Si leo a Hastie et al. a la derecha, muestran una correspondencia entre el boostrap no paramétrico y el bootstrap bayesiano y afirma que el primero se aproxima al segundo. No escriben mucho sobre por qué el bootstrap (bayesiano o no) da como resultado inferencias sensibles en primer lugar. Lo que esperaba era algo como: "En [algunas circunstancias generales], el bootstrap se aproxima a la verdadera distribución posterior del parámetro / estadística con un error que es [algo] y que depende de [esto y aquello]".
Rasmus Bååth
Gracias por la ayuda en mejorar mi respuesta. La explicación más clara que he escuchado de por qué funciona el bootstrap es que la muestra que acabas de recolectar es la mejor representación que tienes de la población en general. Pero no soy lo suficientemente probabilista como para decirlo más formalmente.
EdM
Si recuerdo, hacen este argumento, arrancan un NN y proceden a ser cremados por un NN completamente bayesiano por Radford Neal. Creo que eso dice algo, aunque no estoy seguro de qué.
chico
3

Este es el último artículo que he visto sobre el tema:

@article{efr13bay,
author={Efron, Bradley},
title={Bayesian inference and the parametric bootstrap},
journal={Annals of Applied Statistics},
volume=6,
number=4,
pages={1971-1997},
year=2012,
doi={10.1214/12-AOAS571},
abstract={Summary: The parametric bootstrap can be used for the efficient
    computation of Bayes posterior distributions. Importance sampling formulas
    take on an easy form relating to the deviance in exponential families and
    are particularly simple starting from Jeffreys invariant prior. Because of
    the i.i.d. nature of bootstrap sampling, familiar formulas describe the
    computational accuracy of the Bayes estimates. Besides computational
    methods, the theory provides a connection between Bayesian and frequentist
    analysis. Efficient algorithms for the frequentist accuracy of Bayesian
    inferences are developed and demonstrated in a model selection example.},
keywords={Jeffreys prior; exponential families; deviance; generalized linear
    models},
classmath={*62F15 (Bayesian inference)
62F40 (Resampling methods)
62J12 (Generalized linear models)
65C60 (Computational problems in statistics)}}
Frank Harrell
fuente
2
Mi interpretación del artículo es que describe un método bootstrap para calcular la distribución posterior de un modelo específico, que es un método que se puede utilizar en lugar de, por ejemplo, el muestreo de metrópolis. No veo que el documento discuta la conexión entre los supuestos del modelo de arranque no paramétrico y la estimación bayesiana ...
Rasmus Bååth
1
Afirma hacer eso. No he leído el periódico en detalle.
Frank Harrell
55
Frank: No obtuve mucho al leer este artículo de Efron; lo que hace puede verse como una muestra de importancia secuencial que comienza desde la probabilidad y trata de llegar a la parte posterior (que a menudo funcionará). El propósito de Rubin en el artículo de 1981 era cuestionar la idoneidad del bootstrap, pero Efron aparentemente llegó a la opinión opuesta. David Draper lo revisó este verano en su curso de JSM y concluyó que es malo, excepto cuando puede ver la mayoría de las posibilidades en la muestra. Pero mira aquí normaldeviate.wordpress.com/2013/06/12/…
phaneron
1

A mí también me sedujeron tanto el bootstrapping como el teorema de Bayes, pero no pude entender mucho las justificaciones del bootstrapping hasta que lo vi desde una perspectiva bayesiana. Luego, como explico a continuación, la distribución de bootstrap puede verse como una distribución posterior bayesiana, lo que hace obvia la razón (a?) Detrás de bootstrapping, y también tiene la ventaja de aclarar las suposiciones hechas. Hay más detalles sobre el argumento a continuación y las suposiciones hechas en https://arxiv.org/abs/1803.06214 (páginas 22-26).

Como ejemplo, que se configura en la hoja de cálculo en http://woodm.myweb.port.ac.uk/SL/resample.xlsx (haga clic en la pestaña bootstrap en la parte inferior de la pantalla), supongamos que tenemos una muestra de 9 medidas con una media de 60. Cuando utilicé la hoja de cálculo para producir 1000 muestras con reemplazo de esta muestra y redondeé las medias al número par más cercano, 82 de estas medias fueron 54. La idea de bootstrapping es que nosotros use la muestra como una población "simulada" para ver cuán variable es probable que sean las medias de las muestras de 9, por lo que esto sugiere que la probabilidad de que una media de la muestra sea 6 por debajo de la media de la población (en este caso, la población simulada basada en el muestra con una media de 60) es 8.2%. Y podemos llegar a una conclusión similar sobre las otras barras en el histograma de remuestreo.

Ahora imaginemos que la verdad es que la media de la población real es 66. Si es así, nuestra estimación de la probabilidad de que la media de la muestra sea 60 (es decir, los datos) es 8.2% (utilizando la conclusión en el párrafo anterior recordando que 60 es 6 por debajo de la media poblacional hipotética de 66). Escribamos esto como

P (Datos dados Media = 66) = 8.2%

y esta probabilidad corresponde a un valor x de 54 en la distribución de remuestreo. El mismo tipo de argumento se aplica a cada media poblacional posible de 0, 2, 4 ... 100. En cada caso, la probabilidad proviene de la distribución de muestreo, pero esta distribución se refleja sobre la media de 60.

Ahora apliquemos el teorema de Bayes. La medición en cuestión solo puede tomar valores entre 0 y 100, por lo que redondeando al número par más cercano las posibilidades para la media de la población son 0, 2, 4, 6, .... 100 Si suponemos que la distribución previa es plana, cada una de ellas tiene una probabilidad previa del 2% (a 1 dp), y el teorema de Bayes nos dice que

P (PopMean = 66 Datos dados) = 8.2% * 2% / P (Datos)

dónde

P (Datos) = P (PopMean = 0 Datos dados) * 2% + P (PopMean = 2 Datos dados) * 2% + ... + P (PopMean = 100 Datos dados) * 2%

Ahora podemos cancelar el 2% y recordar que la suma de las probabilidades debe ser 1 ya que las probabilidades son simplemente las de la distribución de muestreo. Lo que nos deja con la conclusión de que

P (PopMean = 66) = 8.2%

Recordando que 8.2% es la probabilidad de la distribución de muestreo correspondiente a 54 (en lugar de 66), la distribución posterior es simplemente la distribución de muestreo reflejada sobre la media muestral (60). Además, si la distribución de muestreo es simétrica en el sentido de que las asimetrías son aleatorias, como lo es en este y muchos otros casos, podemos tomar la distribución de muestreo como idéntica a la distribución de probabilidad posterior.

Este argumento hace varias suposiciones, la principal es que la distribución previa es uniforme. Estos se detallan con más detalle en el artículo citado anteriormente.

Michael Wood
fuente
Existe tal cosa como un bootstrap bayesiano que fue presentado por Rubin. Pero no creo que sea a eso a lo que te refieres. El bootstrap ordinario presentado por Efron es realmente un concepto frecuentista.
Michael Chernick