Regresión bayesiana con singular - ¿Está bien definido el posterior?

8

Comunidad SE, espero obtener algunas ideas sobre el siguiente problema. Dado un modelo de regresión lineal simple Bajo una función de probabilidad gaussiana con términos de error homoscedastic, la distribución condicional de la variable dependiente toma la forma Asigno un conjugado condicional (no informativo) antes de \ beta y h \ beta | h \ sim N (0, cI), h \ sim G (s ^ {- 2}, v) fueron c \ rightarrow \ infty, v \ flecha derecha 0 . Es un resultado estándar que la distribución marginal posterior de \ beta es multivariada t con \ beta | D \ sim t_N (\ hat {\ beta}, \ hat {\ Sigma}, T).

Y=Xβ+ϵ , dónde YRT,XRT×norte.
YEl |β,hnorte(Xβ,h-1yo).
βh
βEl |hnorte(0 0,Cyo),hsol(s-2,v)
C,v0 0β
βEl |retnorte(β^,Σ^,T).
¿Qué sucede si (XX) es singular? En la regresión estándar, optaría por el pseudoinverso generalizado de Moore-Penrose (XX)+ lugar de usar (XX)-1 . Sin embargo, en este caso la varianza posterior Σ^: =C(XX)-1 sería singular y dudo que la t Distribución todavía esté bien definida. ¿Es esto correcto?

E incluso me distrae aún más: supongamos que no estoy realmente interesado en la distribución posterior de β sino solo en una combinación lineal z: =UNAβ donde UNARnorte-1×norte , y El |UNAΣ^UNAEl |0 0 . Podría tomar muestras de esa distribución, aunque su construcción se basa en algo que no está realmente definido (la distribución de β ). ¿Hay alguna manera de manejar esto? ¿O hay un error esencial en mi pregunta que hace que mi punto sea obsoleto?

muffin1974
fuente
2
En el mejor de los casos, los antecedentes no informativos brindan resultados útiles cuando los datos identifican de manera única los parámetros del modelo. Esta observación es básicamente la razón por la que tenemos regresión de cresta y sus parientes en lugar de depender únicamente de OLS. Pero si los datos no son lo suficientemente informativos, normalmente uno irá por la ruta de regresión regularizada (cresta, etc.) o la ruta completa de Bayes. En la ruta completa de Bayes, solo defina distribuciones previas adecuadas e informativas sobre sus datos y el problema será manejable.
Sycorax dice Reinstate Monica
1
Gracias por tus comentarios hasta ahora! Entiendo que la parte posterior de no está definida correctamente. Sin embargo, ¿esto realmente causa problemas para la variable aleatoria que está al menos teóricamente bien definida? βz
muffin1974
1
Bien. lo que me confunde es que la parte posterior de parece plausible, aunque el camino hacia una solución no es nada satisfactorio. Actualmente estoy buscando una manera de reescribir la ecuación de regresión, porque soy optimista de que sería posible obtener directamente los parámetros de regresión lugar de perder el tiempo buscando . Sin embargo, aunque esto parece posible en mi caso específico, todavía me queda la pregunta de qué significa si un modelo 'malo' está anidado en uno funcional ...zzβ
muffin1974

Respuestas:

2

El principal problema con su pregunta es que tomar límites no se extiende directamente a medidas y distribuciones de probabilidad. Hay muchos tipos diferentes de convergencia asociados con las medidas.

Por lo tanto, considerando el conjugado y dejando que y vayan a y , respectivamente, no tiene un significado matemático propio o único.

βEl |hnorte(0 0,Cyo),hsol(s-2,ν)
νC0 0

Ahora, si considera el previo incorrecto no hay distribución posterior asociada con la probabilidad porque el potencial posterior no se integra en condicional en . No hay porque el inverso no existe y no hay una distribución bien definida en .

π(β,h)1h
L(β,hEl |X,y)=Exp{-h(y-Xβ)T(y-Xβ)/ /2}hT/ /2
βh
Σ^=(XTX)-1
UNAβ
Xi'an
fuente