¿Qué es el muestreo de importancia?

Estoy tratando de aprender aprendizaje de refuerzo y este tema es realmente confuso para mí. He tomado una introducción a las estadísticas, pero no podía entender este tema intuitivamente.

variance simulation monte-carlo unbiased-estimator importance-sampling Tienanh Nguyen
fuente

Respuestas:

El muestreo de importancia es una forma de muestreo de una distribución diferente de la distribución de interés para obtener más fácilmente mejores estimaciones de un parámetro de la distribución de interés. Normalmente, esto proporcionará estimaciones del parámetro con una varianza menor que la que se obtendría al tomar muestras directamente de la distribución original con el mismo tamaño de muestra.

Se aplica en varios contextos. En general, el muestreo de la distribución diferente permite tomar más muestras en una parte de la distribución de interés que dicta la aplicación (región importante).

Un ejemplo podría ser que desea tener una muestra que incluya más muestras de las colas de la distribución de lo que proporcionaría un muestreo aleatorio puro de la distribución de interés.

El artículo de Wikipedia que he visto sobre este tema es demasiado abstracto. Es mejor mirar varios ejemplos específicos. Sin embargo, sí incluye enlaces a aplicaciones interesantes como Bayesian Networks.

Un ejemplo de muestreo importante en las décadas de 1940 y 1950 es una técnica de reducción de varianza (una forma del Método Monte Carlo). Véase, por ejemplo, el libro Monte Carlo Methods de Hammersley y Handscomb publicado como Methuen Monograph / Chapman and Hall en 1964 y reimpreso en 1966 y más tarde por otros editores. La sección 5.4 del libro cubre el muestreo de importancia.

Michael R. Chernick
fuente

Para agregar a esto: en RL, generalmente está aplicando un muestreo de importancia a la política: por ejemplo, acciones de muestreo de una política de exploración en lugar de la política real que realmente desea probar

DaVinci

Esta respuesta comienza bien explicando qué importancia tiene el muestreo , pero me decepcionó descubrir que en realidad nunca responde a la pregunta de qué importancia es el muestreo : ¿cómo funciona?

whuber

@whuber Mi objetivo aquí era explicar el concepto a un OP confundido y señalarle algo de literatura. Es un gran tema y se usa en aplicaciones aparentemente diferentes. Otros pueden explicar los detalles en términos simples mejor que yo. Sé que cuando decides responder una pregunta, te vuelves loco y proporcionas buenos gráficos, revisas los detalles técnicos usando un lenguaje sencillo. Esas publicaciones casi siempre satisfacen a la comunidad con su claridad e integridad, y me atrevo a decir que también satisface el OP al menos en parte. Tal vez unas pocas oraciones con ecuaciones basten como sugiere.

Michael R. Chernick

Tal vez sea mejor para la comunidad responder a la pregunta en lugar de solo señalar otras fuentes o incluso proporcionar enlaces. Simplemente sentí que lo que hice fue adecuado y el OP que admite ser un novato en estadística debería hacer un esfuerzo por su cuenta primero.

Michael R. Chernick

Usted tiene un punto. Sin embargo, me pregunto si podría ser posible en solo una o dos oraciones más, sin matemáticas, sin gráficos, casi sin trabajo adicional, para dar una respuesta a la pregunta que se le hizo. En este caso, la descripción tendría que enfatizar que uno está estimando la expectativa (no cualquier "parámetro"), luego tal vez señalar que dado que la expectativa suma un producto de valores y probabilidades, uno obtiene el mismo resultado al cambiar las probabilidades ( a aquellos de una distribución que es fácil de probar) y ajustando los valores para compensar eso.

whuber

El muestreo de importancia es un método de simulación o Monte Carlo destinado a la aproximación de integrales. El término "muestreo" es algo confuso en el sentido de que no tiene la intención de proporcionar muestras de una distribución dada.

La intuición detrás del muestreo de importancia es que una integral bien definida, como puede expresarse como una expectativa para un amplio rango de distribuciones de probabilidad:

I = \int_{X} h (x) d x

$\mathfrak{I}=\int_\mathfrak{X} h(x)\,\text{d}x$

donde

denota la densidad de una distribución de probabilidad y

está determinado por

. (Tenga en cuenta que suele ser diferente de .)De hecho, la elección

I = E_{f} [H (X)] = \int_{X} H (x) f (x) d x

$\mathfrak{I}=\mathbb{E}_f[H(X)]=\int_\mathfrak{X} H(x)f(x)\,\text{d}x$

f

$f$

H

$H$

h

$h$

f

$f$ $H(\cdot)$ $h(\cdot)$

conduce a las igualdades

bajo algunas restricciones en el soporte de

, lo que significa

cuando

H (x) = \frac{h (x)}{f (x)}

$H(x)=\dfrac{h(x)}{f(x)}$

H (x) f (x) = h (x)

$H(x)f(x)=h(x)$

I = E_{f} [H (X)]

$\mathfrak{I}=\mathbb{E}_f[H(X)]$

-

$-$

f

$f$

f (x) > 0

$f(x)>0$

h (x) \neq 0

$h(x)\ne 0$

-

$-$ . Por lo tanto, como señaló W. Huber en su comentario, no hay unicidad en la representación de una integral como una expectativa, sino por el contrario, una variedad infinita de tales representaciones, algunas de las cuales son mejores que otras una vez como criterio para comparar ellos es adoptado. Por ejemplo, Michael Chernick menciona elegir

para reducir la varianza del estimador.

f

$f$

Una vez que se comprende esta propiedad elemental, la implementación de la idea es confiar en la Ley de Números Grandes como en otros métodos de Monte Carlo, es decir, simular [a través de un generador pseudoaleatorio] una muestra iid distribuido de y de utilizar la aproximación $(x_1,\ldots,x_n)$ $f$ que

\hat{I} = \frac{1}{n} \sum_{i = 1}^{n} H (x_{i})

$\hat{\mathfrak{I}}=\frac{1}{n} \sum_{i=1}^n H(x_i)$

es un estimador imparcial de $\mathfrak{I}$
converge casi seguro a $\mathfrak{I}$

Dependiendo de la elección de la distribución , el estimador anterior puede o no tener una varianza finita. Sin embargo, siempre existen opciones de que permiten una variación finita e incluso una variación arbitrariamente pequeña (aunque esas opciones pueden no estar disponibles en la práctica). Y también existen opciones de que hacen que el estimador de muestreo de importancia una muy mala aproximación de . Esto incluye todas las opciones donde la varianza se vuelve infinita, a pesar de que un artículo reciente de Chatterjee y Diaconis estudia cómo comparar muestras de importancia con la varianza infinita. La siguiente imagen está tomada de $f$ $\hat{\mathfrak{I}}$ $f$ $f$ $\hat{\mathfrak{I}}$ ${\mathfrak{I}}$ Mi discusión en el blog del artículo ilustra la pobre convergencia de los estimadores de varianza infinita.

Muestreo de importancia con distribución importante una distribución Exp (1) distribución objetivo una distribución Exp (1/10), y función de interés . El verdadero valor de la integral es . $h(x)=x$ $10$

[Lo siguiente se reproduce de nuestro libro Métodos estadísticos de Monte Carlo .]

$f$

\int_{X} h (x) f (x) d x

$\int_\mathfrak{X} h(x) f(x)\,\text{d}x$

$p$ ${\mathcal{C}}(0,1)$ $2$

p = \int_{2}^{+ \infty} \frac{1}{π (1 + x^{2})} d x .

$p = \int_2^{+\infty} \; {1\over \pi(1 + x^2)} \; \text{d}x \;.$

p

$p$

{\hat{p}}_{1} = \frac{1}{m} \sum_{j = 1}^{m} I_{X_{j} > 2}

${\hat{p}}_1 = {1\over m} \; \sum_{j=1}^m \; \mathbb{I}_{X_{j} > 2}$

X_{1}, \dots, X_{m}

$X_1,\ldots,X_m$

\sim

$\sim$

C (0, 1)

$\; \mathcal{C}(0,1)$

p (1 - p) / m

$p(1-p)/m$

0.127 / m

$0.127/m$

p = 0.15

$p=0.15$

${\mathcal{C}}(0,1)$

{\hat{p}}_{2} = \frac{1}{2 m} \sum_{j = 1}^{m} I_{| X_{j} | > 2}

${\hat{p}}_2 = {1\over 2m} \; \sum_{j=1}^m \; \mathbb{I}_{|X_{j}| > 2}$

p (1 - 2 p) / 2 m

$p(1-2p)/2m$

0.052 / m

$0.052/m$

$[2,+\infty)$ $p$ $p$

p = \frac{1}{2} - \int_{0}^{2} \frac{1}{π (1 + x^{2})} d x,

$p = {1\over 2} - \int_0^2 \; {1\over \pi(1 + x^2)} \; \text{d}x \;,$

h (X) = 2 / π (1 + X^{2})

$h(X) = 2/\pi(1 + X^2)$

X \sim U_{[0, 2]}

$X \sim {\mathcal{U}}_{[0, 2]}$

p

$p$

{\hat{p}}_{3} = \frac{1}{2} - \frac{1}{m} \sum_{j = 1}^{m} h (U_{j})

${\hat{p}}_3 = {1\over 2} - {1\over m} \; \sum_{j=1}^m \; h(U_j)$

U_{j} \sim U_{[0, 2]}

$U_j \sim {\mathcal{U}}_{[0,2]}$

{\hat{p}}_{3}

${\hat{p}}_3$

(E [h^{2}] - E [h]^{2}) / m

$(\mathbb{E}[h^2] - \mathbb{E}[h]^2)/m$

0.0285 / m

$0.0285/m$

p

$p$

p = \int_{0}^{1 / 2} \frac{y^{- 2}}{π (1 + y^{- 2})} d y,

$p = \int_0^{1/2} \; {y^{-2}\over \pi(1 + y^{-2})} \; \text{d}y \;,$

\frac{1}{4} h (Y) = 1 / 2 π (1 + Y^{2})

${1\over 4} \; h(Y) = 1/2\pi(1 + Y^2)$

[0, 1 / 2]

$[0,1/2]$

p

$p$

{\hat{p}}_{4} = \frac{1}{4 m} \sum_{j = 1}^{m} h (Y_{j})

${\hat{p}}_4 = {1\over 4 m} \; \sum_{j=1}^m \; h(Y_j)$

Y_{j} \sim U_{[0, 1 / 2]}

$Y_j \sim {\mathcal{U}}_{[0,1/2]}$

{\hat{p}}_{4}

${\hat{p}}_{4}$

0.95 10^{- 4} / m

$0.95 \; 10^{-4}/m$

${\hat{p}}_1$ ${\hat p}_4$ $10^{-3}$ $\sqrt{1000} \approx 32$ $\hat p_1$ $\blacktriangleright$

Xi'an
fuente

Gracias @Xi 'an por tomarse la molestia de ilustrar el muestreo de importancia de una manera que todos puedan apreciar y creo que satisface más que la solicitud de Bill Huber. +1

Michael R. Chernick

Quiero señalar que inicialmente esta publicación se suspendió y gracias a las contribuciones de varias personas. Hemos creado un hilo informativo.

Michael R. Chernick

Christian, quiero extender mi agradecimiento y expresar un sentimiento de privilegio de que estés compartiendo activamente este excelente material con nosotros.

whuber

Solo quiero agregar un agradecimiento a Xi'an, que tuvo la amabilidad de hacer algunas ediciones para mejorar mi respuesta a pesar de que dio una propia.

Michael R. Chernick

Esta tiene que ser una de las mejores publicaciones en stats.stackexchange. ¡Gracias por compartir!

dohmatob