Multivariante normal posterior

Esta es una pregunta muy simple, pero no puedo encontrar la derivación en ningún lugar de Internet o en un libro. Me gustaría ver la derivación de cómo un Bayesiano actualiza una distribución normal multivariada. Por ejemplo: imagina que

\begin{array}{rcl} P (x | μ, Σ) & = & N (μ, Σ) \\ P (μ) & = & N (μ_{0}, Σ_{0}) . \end{array}

$\begin{array}{rcl} \mathbb{P}({\bf x}|{\bf μ},{\bf Σ}) & = & N({\bf \mu}, {\bf \Sigma}) \\ \mathbb{P}({\bf \mu}) &= & N({\bf \mu_0}, {\bf \Sigma_0})\,. \end{array}$

Después de observar un conjunto de , me gustaría calcular . Sé que la respuesta es donde ${\bf x_1 ... x_n}$ $\mathbb{P}({\bf \mu | x_1 ... x_n})$ $\mathbb{P}({\bf \mu | x_1 ... x_n}) = N({\bf \mu_n}, {\bf \Sigma_n})$

\begin{array}{rcl} μ_{n} & = & Σ_{0} {(Σ_{0} + \frac{1}{n} Σ)}^{- 1} (\frac{1}{n} \sum_{i = 1}^{n} x_{i}) + \frac{1}{n} Σ {(Σ_{0} + \frac{1}{n} Σ)}^{- 1} μ_{0} \\ Σ_{n} & = & Σ_{0} {(Σ_{0} + \frac{1}{n} Σ)}^{- 1} \frac{1}{n} Σ \end{array}

$\begin{array}{rcl} \bf \mu_n &=& \displaystyle\Sigma_0 \left(\Sigma_0 + \frac{1}{n}\Sigma\right)^{-1}\left(\frac{1}{n}\sum_{i=1}^{n}{\bf x_i}\right) + \frac{1}{n}\Sigma\left(\Sigma_0+\frac{1}{n}\Sigma\right)^{-1}\mu_0 \\ \bf \Sigma_n & =&\displaystyle \Sigma_0\left(\Sigma_0 + \frac{1}{n}\Sigma\right)^{-1}\frac{1}{n}\Sigma \end{array}$

Estoy buscando la derivación de este resultado con todo el álgebra de matriz intermedia.

Cualquier ayuda es muy apreciada.

bayesian normal-distribution matrix posterior linear-algebra Alex
fuente

También se resuelve en nuestro libro Bayesian Core , Cap. 3, Sección 3.2, páginas 54-57 con lo que creemos que es álgebra matricial detallada.

Xi'an

El OP dijo que no era un problema de tarea e incluso explicó por qué lo hizo y cómo quiere usar la respuesta. ¿Por qué no publicarlo para otros? Entiendo por qué no queremos proporcionar un servicio de resolución de problemas de tarea, pero esto lo lleva un poco demasiado lejos.

Michael R. Chernick

@Alex: Lo siento, enlace incorrecto, me refería a Bayesian Core . Tenga en cuenta que también publicamos soluciones a todos los problemas en arXiv . ¡Publicar una solución completa aquí no estaría de más!

Xi'an

He eliminado la parte de los comentarios que equivale a un intercambio privado entre individuos con un acuerdo para compartir una respuesta privada a la pregunta. Ese tipo de cosas está abusando de este sitio, que tiene que ver con públicos preguntas y públicos respuestas.

whuber

Al igual que para su información, la derivación está en Clasificación de patrones por Duda, Hart y Stork. Sin embargo, estaba teniendo dificultades para seguir algunos de sus pasos, lo que solo me importa. Si esto fuera simplemente tarea, uno podría escribir exactamente lo que tiene.

Alex

Respuestas:

Con las distribuciones en nuestros vectores aleatorios:

$\mathbf x_i | \mathbf \mu \sim N(\mu , \mathbf \Sigma)$

$\mathbf \mu \sim N(\mathbf \mu_0, \mathbf \Sigma_0)$

Por la regla de Bayes, la distribución posterior se ve así:

$p(\mu| \{\mathbf x_i\}) \propto p(\mu) \prod_{i=1}^N p(\mathbf x_i | \mu)$

Entonces:

$\ln p(\mu| \{\mathbf x_i\}) = -\frac{1}{2}\sum_{i=1}^N(\mathbf x_i - \mu)'\mathbf \Sigma^{-1}(\mathbf x_i - \mu) -\frac{1}{2}(\mu - \mu_0)'\mathbf \Sigma_0^{-1}(\mu - \mu_0) + const$

$= -\frac{1}{2} N \mu' \mathbf \Sigma^{-1} \mu + \sum_{i=1}^N \mu' \mathbf \Sigma^{-1} \mathbf x_i -\frac{1}{2} \mu' \mathbf \Sigma_0^{-1} \mu + \mu' \mathbf \Sigma_0^{-1} \mu_0 + const$

$= -\frac{1}{2} \mu' (N \mathbf \Sigma^{-1} + \mathbf \Sigma_0^{-1}) \mu + \mu' (\mathbf \Sigma_0^{-1} \mu_0 + \mathbf \Sigma^{-1} \sum_{i=1}^N \mathbf x_i) + const$

$= -\frac{1}{2}(\mu - (N \mathbf \Sigma^{-1} + \mathbf \Sigma_0^{-1})^{-1}(\mathbf \Sigma_0^{-1} \mu_0 + \mathbf \Sigma^{-1} \sum_{i=1}^N \mathbf x_i))' (N \mathbf \Sigma^{-1} + \mathbf \Sigma_0^{-1}) (\mu - (N \mathbf \Sigma^{-1} + \mathbf \Sigma_0^{-1})^{-1}(\mathbf \Sigma_0^{-1} \mu_0 + \mathbf \Sigma^{-1} \sum_{i=1}^N \mathbf x_i)) + const$

Which is the log density of a Gaussian:

$\mu| \{\mathbf x_i\} \sim N((N \mathbf \Sigma^{-1} + \mathbf \Sigma_0^{-1})^{-1}(\mathbf \Sigma_0^{-1} \mu_0 + \mathbf \Sigma^{-1} \sum_{i=1}^N \mathbf x_i), (N \mathbf \Sigma^{-1} + \mathbf \Sigma_0^{-1})^{-1})$

Using the Woodbury identity on our expression for the covariance matrix:

$(N \mathbf \Sigma^{-1} + \mathbf \Sigma_0^{-1})^{-1} = \mathbf \Sigma(\frac{1}{N} \mathbf \Sigma + \mathbf \Sigma_0)^{-1} \frac{1}{N} \mathbf \Sigma_0$

Which provides the covariance matrix in the form the OP wanted. Using this expression (and its symmetry) further in the expression for the mean we have:

$\mathbf \Sigma(\frac{1}{N} \mathbf \Sigma + \mathbf \Sigma_0)^{-1} \frac{1}{N} \mathbf \Sigma_0 \mathbf \Sigma_0^{-1} \mu_0 + \frac{1}{N} \mathbf \Sigma_0(\frac{1}{N} \mathbf \Sigma + \mathbf \Sigma_0)^{-1} \mathbf \Sigma \mathbf \Sigma^{-1} \sum_{i=1}^N \mathbf x_i$

$= \mathbf \Sigma(\frac{1}{N} \mathbf \Sigma + \mathbf \Sigma_0)^{-1} \frac{1}{N} \mu_0 + \mathbf \Sigma_0(\frac{1}{N} \mathbf \Sigma + \mathbf \Sigma_0)^{-1} \sum_{i=1}^N (\frac{1}{N} \mathbf x_i)$

Which is the form required by the OP for the mean.

conjectures
fuente