Probabilidad gaussiana + which prior = Gaussian Marginal?

8

Dada una probabilidad gaussiana para una muestra como con siendo el espacio de parámetros y , parametrizaciones arbitrarias del vector medio y la matriz de covarianza.y

p(y|θ)=N(y;μ(θ),Σ(θ))
Θμ(θ)Σ(θ)

¿Es posible especificar una densidad previa y la parametrización del vector medio y la matriz de covarianza modo que la probabilidad marginal es una probabilidad gaussiana?p(θ)μ(θ)Σ(θ)

p(y)=θΘN(y;μ(θ),Σ(θ))p(θ)dθ

Supongo que excluyendo la solución trivial de que se conoce la covarianza, es decir, , donde \ Sigma es una matriz de covarianza fija arbitraria, esto no es posible.Σ(θ)=ΣΣ

Para el caso especial μ(σ2)=μ y Σ(σ2)=σ2 , es decir, y es unidimensional, y p(σ2)=U(σ2;a,b) , donde U(σ2;a,b) denota la densidad uniforme que puedo mostrar:

p(y)=0N(y;μ,σ2)U(σ2;a,b)dσ2=1baabN(y;μ,σ2)not a Gaussian density

La respuesta aceptada contiene una prueba formal o informal o punteros a ella.

Julian Karls
fuente

Respuestas:

2

Su conjetura parece ser cierta: solo una variación constante puede conducir a un margen normal. Mi prueba se limita al caso donde se conoce la expectativa , y por lo tanto se puede suponer que es cero. Para el caso general, parece que se requieren argumentos más sofisticados del análisis funcional.μ

Tenga en cuenta que la pregunta es en realidad sobre la mezcla continua de normales , así como sobre Bayes. La afirmación demostró aquí que una mezcla ( normal ) a escala de normales puede ser normal solo para una mezcla trivial.

Primero considere el caso de una normal unidimensional con media conocida y parámetro de precisión . Sin pérdida de generalidad, podemos suponer que el parámetro es la precisión misma. Si la distribución marginal de es normal, entonces es una densidad normal hasta una constante multiplicativa. Esta densidad es una función par de debe tomar la forma para algunos y algunos constantes . Dado que esto vale para cualquierμ=0ω:=1/Σ>0θωyexp{y2ω/2}ω1/2p(ω)dωycexp{y2ω0/2}ω0>0c>0yobtenemos con para todo , lo que muestra que la medida finita con función de densidad es proporcional a la masa de Dirac en porque estas dos medidas tienen la misma transformada de Laplace, hasta una constante multiplicativa. Por lo tanto, es casi seguro (as) igual a . s:=y2

0exp{sω/2}ω1/2p(ω)dω=cexp{sω0/2}
s0ωω1/2p(ω)ω0ωω0

Esta prueba se extiende a la normal dimensional con media cero y matriz de precisión . El margen luego se escribe como donde la integral está en el conjunto de simétrica definida positiva matrices. Si esta integral es idéntica a , entonces tomando para un escalar y un vector arbitrariodΩ:=Σ1exp{yΩy/2}|Ω|1/2p(Ω)dΩPd×dcexp{yΩ0y/2}y:=sus0u , encontramos como arriba que debe ser igual a , que muestra que es igual a . La prueba funciona incluso si la medida convenientemente escrita tiene densidad concentra en un subconjunto de con la medida de Lebesgue cero, porque el argumento de transformación de Laplace todavía se aplica. Entonces, la prueba funciona para una parametrización general de la matriz de precisión (o varianza).uΩuuΩ0uΩΩ0|Ω|1/2p(Ω)P

Yves
fuente
No he entendido su prueba completamente todavía. En comparación con la respuesta de Jacky1, parece relativamente complejo. ¿Qué opinas de su prueba?
Julian Karls
Bueno, no podía entender cómo lo anterior puede depender de en la respuesta de Jacky. Sin embargo, su afirmación, según tengo entendido, es incorrecta: cometí el mismo error primero :) De hecho, no es necesariamente constante y si la varianza es constante, aún puede ser normal, lo que se verifica fácilmente completando un cuadrado. Ahora tengo una prueba del caso anterior independiente (unidimensional para simplificar), y espero escribirlo pronto, tal vez como una nueva respuesta. La varianza debe ser constante y debe ser normal (posiblemente degenerada). yμμΣμ
Yves
¿Podría ampliar su razonamiento en el párrafo que comienza con "Dado que esto vale para cualquier y termina con" (como) igual a "? Tal vez con punteros a los teoremas que está utilizando?yω0
Julian Karls
1

Suponga que y son independientes a priori y que tiene un margen normal con media y varianza . Demostraré que entonces la varianza debe ser constante, y la media debe tener un previo normal (posiblemente degenerado).μΣyμ0Σ0Σμ

Me limitaré al caso unidimensional por simplicidad, usando la función característica (cf) de , es decir, . Sabemos que } y una fórmula similar es válida para la distribución de condicional en y , lo cual es normal por suposición. Entonces, para cualquier y al reorganizar la integral, debemos tener yϕy(t):=E[eyit]ϕy(t)=exp{μ0itΣ0t2/2yμΣt

E[eyit]=E[eyit|μ,Σ]p(μ)p(Σ)dμdΣ=exp{μitΣt2/2}p(μ)p(Σ)dμdΣ,
exp{μ0itΣ0t2/2}=[exp{μit}p(μ)dμ][exp{Σt2/2}p(Σ)dΣ].
Los supuestos necesarios para tal reordenamiento se verifican fácilmente.

La primera integral en el lado derecho, digamos , es el cf de . Tenga en cuenta que dado que se considera real, vemos que la distribución de es simétrica wrt y, por lo tanto, que , como podría haberse anticipado.ϕ1(t)μϕ1(t)eμ0itμμ0E[μ]=μ0

Ahora resulta que la segunda integral en el lado derecho, digamos , también es un cf. Para ver eso, debemos verificar que , que es continuo en y también que la función es positiva definida (pd). El primer requisito es obvio, el segundo está demostrado por la convergencia dominada. Ahora pase al requisito de pd: si la distribución previa escrita como es una masa de Dirac, entonces es pd porque es entonces el cf de una distribución normal. Si lo anterior es una mezcla discreta de masas de Dirac, esto también es cierto desdeϕ2(t)ϕ2(0)=1ϕ2t=0ϕ2p(Σ)dΣϕ2ϕ2ϕ2entonces es el cf de una mezcla de normales. Por un argumento de continuidad, vemos que es pdϕ2

Ahora usemos el poderoso teorema de Lévy-Cramér que dice que ambas funciones para , deben tomar la forma con real y . Entonces debe ser normal (posiblemente degenerar) con una media . Por álgebra simple entonces tenemos que se cumple para cualquier real . Como cualquier escritura real no negativa se escribe como , vemos que la transformada de Laplace del previo deϕjj=12exp{ajitbjt2/2}ajbj0μa1=μ0

exp{(Σ0b1)t2/2}=0exp{Σt2/2}p(Σ)dΣ
tt2/2Σdebe ser igual al de la masa de Dirac en y hemos terminado.Σ0b1
Yves
fuente
Gracias por tu esfuerzo. Me llevará un tiempo entender esto.
Julian Karls
0

Tengo una propuesta de prueba para usted, pero debe verificarla.

Suponga que la probabilidad marginal es gaussiana:

p(y)=N(y,m,Γ)

entonces la densidad previa puede definirse por

p(θ)=N(y,μ(θ),Σ(θ))1N(y,m,Γ)f(θ)

dónde f cheques θΘf(θ)dθ=1 y f(θ)0 para θΘ. (f(θ) es p(θ|y))

Para ser una densidad, la integral de la densidad anterior p(θ) en Θ tiene que ser igual a 1. En otras palabras,

θΘN(y,μ(θ),Σ(θ))1N(y,m,Γ)f(θ)dθ=1.

Eso lleva a

θΘN(y,μ(θ),Σ(θ))1N(y,m,Γ)f(θ)dθ=θΘf(θ)dθ

Esta igualdad es verdadera si y solo si μ(θ)=m y Σ(θ)=Γ.

Jacky1
fuente
2
Me gusta la idea de la prueba. Estoy bastante seguro de que todos los pasos, excepto el último, son válidos. Seguramente la integral de dos funciones es la misma si las funciones son las mismas, pero esta no es una condición necesaria. ¿Estás usando un teorema diferente allí?
Julian Karls
Si reemplazas p(θ|y) con su definición vía bayes en tu primera fórmula para p(θ), entonces se convierte p(θ)=p(θ). Seguramente, nada se desprende de esta desigualdad.
Julian Karls