Modelado bayesiano usando normal multivariante con covariable

Suponga que tiene una variable explicativa donde representa una coordenada dada. También tiene una variable de respuesta . Ahora, podemos combinar ambas variables como: ${\bf{X}} = \left(X(s_{1}),\ldots,X(s_{n})\right)$ $s$ ${\bf{Y}} = \left(Y(s_{1}),\ldots,Y(s_{n})\right)$

W (s) = (\begin{array}{ccc} X (s) \\ Y (s) \end{array}) \sim N (μ (s), T)

${\bf{W}}({\bf{s}}) = \left( \begin{array}{ccc}X(s) \\ Y(s) \end{array} \right) \sim N(\boldsymbol{\mu}(s), T)$

En este caso, simplemente elegimos $\boldsymbol{\mu}(s) = \left( \mu_{1} \; \; \mu_{2}\right)^{T}$ y $T$ es una matriz de covarianza que describe el relación entre $X$ y $Y$ . Esto solo describe el valor de $X$ e $Y$ en $s$ . Como tenemos más puntos de otras ubicaciones para $X$ e $Y$ , podemos describir más valores de ${\bf{W}}(s)$ de la siguiente manera:

(\begin{array}{ccc} X \\ Y \end{array}) = N ((\begin{array}{ccc} μ_{1} 1 \\ μ_{2} 1 \end{array}), T \otimes H (ϕ))

$\left( \begin{array}{ccc} {\bf{X}} \\ {\bf{Y}} \end{array}\right) = N\left(\left(\begin{array}{ccc}\mu_{1}\boldsymbol{1}\\ \mu_{2}\boldsymbol{1}\end{array}\right), T\otimes H(\phi)\right)$

Notarás que reorganizamos los componentes de $\bf{X}$ y $\bf{Y}$ para obtener todas las $X(s_i)$ en una columna y luego concatenar todas las $Y(s_i)$ juntas. Cada componente $H(\phi)_{ij}$ es una función de correlación $\rho(s_i, s_j)$ y $T$ es como arriba. La razón tenemos la covarianza $T\otimes H(\phi)$ es porque suponemos que es posible separar la matriz de covarianza como $C(s, s')=\rho(s, s') T$ .

Pregunta 1: Cuando calculo el ${\bf{Y}}\mid{\bf{X}}$ , lo que realmente estoy haciendo es generar un conjunto de valores de $\bf{Y}$ basado en $\bf{X}$ ¿correcto? Ya tengo $\bf{Y}$ por lo que estaría más interesado en predecir un nuevo punto $y(s_{0})$ . En este caso, debería tener una matriz $H^{*}(\phi)$ definida como

H^{*} (ϕ) = (\begin{array}{ccc} H (ϕ) & h \\ h & ρ (0, ϕ) \end{array})

$H^{*}(\phi) = \left(\begin{array}{ccc}H(\phi) & \boldsymbol{h} \\ \boldsymbol{h}& \rho(0,\phi) \end{array}\right)$

en el que $\boldsymbol{h}(\phi)$ es un vector $\rho(s_{0} - s_{j};\phi)$ . Por lo tanto, podemos construir un vector (sin reorganización):

W^{*} = {(W (s_{1}), \dots, W (s_{n}), W (s_{0}))}^{T} \sim N (\begin{array}{ccc} 1_{n + 1} \otimes (\begin{array}{ccc} μ_{1} \\ μ_{2} \end{array}) \end{array}, H (ϕ)^{*} \otimes T)

${\bf{W^{*}}} = \left({\bf{W}}(s_{1}), \ldots, {\bf{W}}(s_{n}), {\bf{W}}(s_{0})\right)^{T} \sim N\left(\begin{array}{ccc}\boldsymbol{1}_{n+1} \otimes \left( \begin{array}{ccc} \mu_{1} \\ \mu_{2} \end{array} \right)\end{array}, H(\phi)^{*}\otimes T\right)$

Y ahora solo reorganizo para obtener una distribución conjunta y obtenga el condicional . $\left(\begin{array}{ccc} {\bf{X}} \\ x(s_0) \\{\bf{Y}} \\ y(s_0)\end{array} \right)$ $p(y(s_0)\mid x_0, {\bf{X}}, {\bf{Y}})$

¿Es esto correcto?

Pregunta 2: Para predecir, el documento que estoy leyendo indica que debo usar esta distribución condicional y obtener un posterior distribución , pero no estoy seguro de cómo obtener la distribución posterior de los parámetros. Tal vez podría usar la distribución que creo es exactamente lo mismo que y luego simplemente usa el teorema de Bayes para obtener $p(y(s_0)\mid x_0, {\bf{X}}, {\bf{Y}})$ $p(\mu, T, \phi\mid x(s_0), {\bf{Y}}, {\bf{X}})$ $\left(\begin{array}{ccc}{\bf{X}} \\ x(s_0)\\ {\bf{Y}}\end{array}\right)$ $p({\bf{X}}, x(s_0), {\bf{Y}}\mid\mu, T, \phi)$ $p(\mu, T, \phi\mid {\bf{X}}, x(s_0), {\bf{Y}}) \propto p({\bf{X}}, x(s_0), {\bf{Y}}\mid\mu, T, \phi)p(\mu, T, \phi)$

Pregunta 3: Al final del subcapítulo, el autor dice esto:

Para la predicción, no tenemos . Esto no crea ningún problema nuevo, ya que puede tratarse como una variable latente e incorporarse en Esto solo da como resultado un sorteo adicional dentro de cada iteración de Gibbs y es una adición trivial a la tarea computacional. ${\bf{X}}(s_0)$ $\bf{x}'$

¿Qué significa ese párrafo?

Por cierto, este procedimiento se puede encontrar en este documento (página 8), pero como puede ver, necesito un poco más de detalles.

¡Gracias!

probability bayesian conditional-probability gibbs Robert Smith
fuente

Votado para migrar por solicitud de OP .

Diría que es correcto para ambas respuestas a las preguntas 1 y 2. La pregunta 3 significa que la no observada se trata como un parámetro adicional, además de , usando el condicional completo como anteriormente en .

X (s_{0})

$X(s_0)$

μ, T, ϕ

$\mu,T,\phi$

p (x (s_{0}) ∣ X,, Y, μ, T, ϕ)

$p(x(s_0)\mid{\bf{X}}, , {\bf{Y}},\mu, T, \phi)$

X (s_{0})

$X(s_0)$

Xi'an

Pregunta 1: Dado su modelo de probabilidad conjunta la distribución condicional de dado también es Normal, con media y matriz de varianza-covarianza

(\begin{array}{ccc} X \\ Y \end{array}) \sim N ((\begin{array}{ccc} μ_{1} 1 \\ μ_{2} 1 \end{array}), [\begin{matrix} Σ_{11} & Σ_{12} \\ Σ_{21} & Σ_{22} \end{matrix}]) = N ((\begin{array}{ccc} μ_{1} 1 \\ μ_{2} 1 \end{array}), T \otimes H (ϕ))

$\left( \begin{array}{ccc} {\bf{X}} \\ {\bf{Y}} \end{array}\right) \sim N\left(\left(\begin{array}{ccc}\mu_{1}\boldsymbol{1}\\ \mu_{2}\boldsymbol{1}\end{array}\right), \begin{bmatrix} \boldsymbol\Sigma_{11} & \boldsymbol\Sigma_{12} \\ \boldsymbol\Sigma_{21} & \boldsymbol\Sigma_{22} \end{bmatrix} \right)=N\left(\left(\begin{array}{ccc}\mu_{1}\boldsymbol{1}\\ \mu_{2}\boldsymbol{1}\end{array}\right), T\otimes H(\phi)\right)$

Y

$\bf{Y}$

X

$\bf{X}$

μ_{2} + Σ_{21} Σ_{11}^{- 1} (X - μ_{1})

$\boldsymbol\mu_2 + \boldsymbol\Sigma_{21} \boldsymbol\Sigma_{11}^{-1} \left( \mathbf{X} - \boldsymbol\mu_1\right)$

Σ_{22} - Σ_{21} Σ_{11}^{- 1} Σ_{21} .

$\boldsymbol\Sigma_{22} - \boldsymbol\Sigma_{21} \boldsymbol\Sigma_{11}^{-1} \boldsymbol\Sigma_{21}.$ (Esas fórmulas se copian textualmente de la página de Wikipedia en normales multivariadas ). Lo mismo se aplica a desde es otro vector normal.

p (y (s_{0}) ∣ x (s_{0}), X, Y)

$p(y(s_0)\mid x(s_0), {\bf{X}}, {\bf{Y}})$

(y (s_{0}), x (s_{0}), X, Y)

$(y(s_0), x(s_0), {\bf{X}}, {\bf{Y}})$

Pregunta 2: El predictivo se define como es decir, integrando los parámetros utilizando la distribución posterior de esos posteriores, dados los datos actuales . Entonces hay un poco más en la respuesta completa. Obviamente, si solo necesita simular desde el predictivo, su noción de simular conjuntamente desde y luego desde es válido. $p(y(s_0)\mid x(s_0), {\bf{X}}, {\bf{Y}})$

p (y (s_{0}) | x (s_{0}), X, Y) = \int p (y (s_{0}) | x (s_{0}), X, Y, μ, T, ϕ) p (μ, T, ϕ | x (s_{0}), X, Y) d μ d T d ϕ,

$p(y(s_0) | x(s_0), {\bf{X}}, {\bf{Y}})=\int p(y(s_0)| x(s_0), {\bf{X}}, {\bf{Y}},\mu,T,\phi)\,p(\mu,T,\phi| x(s_0), {\bf{X}}, {\bf{Y}})\,\text{d}\mu\,\text{d} T\,\text{d}\phi\,,$

(X, Y, x (s_{0}))

$({\bf{X}}, {\bf{Y}},x(s_0))$

p (μ, T, ϕ ∣ X, x (s_{0}), Y)

$p(\mu, T, \phi\mid {\bf{X}}, x(s_0), {\bf{Y}})$

p (y (s_{0}) ∣ x (s_{0}), X, Y, μ, T, ϕ)

$p(y(s_0)\mid x(s_0), {\bf{X}}, {\bf{Y}},\mu,T,\phi)$

Pregunta 3: En el caso de que no se observe, el par se puede predecir a partir de otro predictivo $x(s_0)$ $(x(s_0),y(s_0))$

p (x (s_{0}), y (s_{0}) ∣ X, Y) = \int p (x (s_{0}), y (s_{0}) ∣ X, Y, μ, T, ϕ) p (μ, T, ϕ ∣ X, Y) d μ d T d ϕ .

$p(x(s_0),y(s_0)\mid {\bf{X}}, {\bf{Y}})=\int p(x(s_0),y(s_0)\mid {\bf{X}}, {\bf{Y}},\mu,T,\phi)\,p(\mu,T,\phi\mid {\bf{X}}, {\bf{Y}})\,\text{d}\mu\,\text{d} T\,\text{d}\phi\,.$

Al simular a partir de este predictivo, ya que no está disponible en una forma manejable, se puede ejecutar una muestra de Gibbs que simule iterativamente

$\mu\mid {\bf{X}}, {\bf{Y}},x(s_0),y(s_0),T,\phi$
$T\mid {\bf{X}}, {\bf{Y}},x(s_0),y(s_0),\mu,\phi$
$\phi\mid {\bf{X}}, {\bf{Y}},x(s_0),y(s_0),T,\mu$
$x(s_0)\mid {\bf{X}}, {\bf{Y}},y(s_0),\phi,T,\mu$
$y(s_0)\mid {\bf{X}}, {\bf{Y}},x(s_0),\phi,T,\mu$

o bien fusionar los pasos 4 y 5 en un solo paso

$x(s_0),y(s_0)\mid {\bf{X}}, {\bf{Y}},\phi,T,\mu$

Xi'an
fuente

Modelado bayesiano usando normal multivariante con covariable

Respuestas: