¿Por qué la distribución posterior en la inferencia bayesiana a menudo es intratable?

Tengo un problema para entender por qué la inferencia bayesiana conduce a problemas intratables. El problema a menudo se explica así:

Lo que no entiendo es por qué esta integral tiene que evaluarse en primer lugar: me parece que el resultado de la integral es simplemente una constante de normalización (como se da el conjunto de datos D). ¿Por qué no se puede calcular simplemente la distribución posterior como el numerador del lado derecho y luego inferir esta constante de normalización al exigir que la integral sobre la distribución posterior tenga que ser 1?

¿Qué me estoy perdiendo?

¡Gracias!

bayesian inference Arni
fuente

A quién puede interesar: esta pregunta es directamente sobre el tema porque se trata de estadísticas.

Sycorax dice Reinstate Monica el

El extracto está mal escrito. Tenga en cuenta que

no es la distribución posterior; es la probabilidad incondicional de los datos (es decir, independientemente de theta). Debido a que

será el mismo para todos los modelos considerados para el mismo conjunto de datos, no necesariamente necesita ser calculado. Si no lo hace, simplemente necesita cambiar el signo igual a 'proporcional a' (

P (D)

$P(\mathcal D)$

P (D)

$P(\mathcal D)$

\propto

$\propto$

gung - Restablece a Monica

¿Podría proporcionar la referencia de esa diapositiva ya que supongo que fue escrita por otra persona?

Xi'an

p (D)

$p(\mathcal{D})$

Actualmente estamos llevando a cabo un taller sobre la normalización de constantes donde puede encontrar entradas interesantes para responder esta pregunta.

Xi'an

Respuestas:

¿Por qué no se puede calcular simplemente la distribución posterior como el numerador del lado derecho y luego inferir esta constante de normalización al exigir que la integral sobre la distribución posterior tenga que ser 1?

P (θ | D) = \frac{p (D | θ) P (θ)}{P (D)} .

$P(\theta|D) = \dfrac{p(D|\theta) \, P(\theta)}{P(D)}.$

$P(D|\theta)P(\theta)$ $\theta$ $c$

\begin{aligned} \int_{θ} c P (D | θ) P (θ) d θ = 1 \\ \Rightarrow & \int_{θ} c P (D, θ) d θ = 1 \\ \Rightarrow & c P (D) = 1 \\ \Rightarrow & c = \frac{1}{P (D)} . \end{aligned}

$\begin{align*} &\int_{\theta} cP(D|\theta) \, P(\theta)\, d\theta = 1\\ \Rightarrow & \int_{\theta} cP(D, \theta) \, d\theta = 1\\ \Rightarrow & cP(D) = 1\\ \Rightarrow& c = \dfrac{1}{P(D)}. \end{align*}$

$P(D)$

Greenparker
fuente

θ

$\theta$

Tenía la misma pregunta. Esta gran publicación lo explica muy bien.

En una palabra. Es intratable porque el denominador tiene que evaluar la probabilidad de TODOS los valores posibles de 𝜃; en la mayoría de los casos interesantes, ALL es una gran cantidad. Mientras que el numerador es para una sola realización de 𝜃.

Ver las ecuaciones. 4-8 en el post. Captura de pantalla del enlace:

Arraval
fuente