Regresión de Bayes: ¿cómo se hace en comparación con la regresión estándar?

57

Tengo algunas preguntas sobre la regresión bayesiana:

  1. Dada una regresión estándar como . Si quiero cambiar esto en una regresión bayesiana, ¿necesito distribuciones previas para y (o no funciona de esta manera)?β 0 β 1y=β0 0+β1X+εβ0 0β1

  2. En la regresión estándar, se trataría de minimizar los residuos para obtener valores únicos para y . ¿Cómo se hace esto en la regresión de Bayes?β 1β0 0β1


Realmente lucho mucho aquí:

posterior=anterior×probabilidad

La probabilidad proviene del conjunto de datos actual (por lo que es mi parámetro de regresión, pero no como un valor único sino como una distribución de probabilidad, ¿verdad?). Prior proviene de una investigación previa (digamos). Entonces obtuve esta ecuación:

y=β1X+ε

con siendo mi probabilidad o posterior (¿o esto es totalmente incorrecto)? β1

Simplemente no puedo entender cómo la regresión estándar se transforma en una de Bayes.

TinglTanglBob
fuente

Respuestas:

93

Modelo de regresión lineal simple

yyo=α+βXyo+ε

se puede escribir en términos de modelo probabilístico detrás de él

μyo=α+βXyoyyonorte(μyo,σ)

es decir, la variable dependiente sigue una distribución normal parametrizada por la media μ i , que es una función lineal de X parametrizada por α , β y por desviación estándar σ . Si estima dicho modelo utilizando mínimos cuadrados ordinarios , no tiene que preocuparse por la formulación probabilística, porque está buscando valores óptimos de los parámetros α , β minimizando los errores al cuadrado de los valores ajustados a los valores pronosticados. Por otro lado, puede estimar dicho modelo utilizando la estimación de máxima verosimilitudYμyoXα,βσα,β, donde estaría buscando valores óptimos de parámetros maximizando la función de probabilidad

unarsolmetrounaXα,β,σyo=1nortenorte(yyo;α+βXyo,σ)

donde es una función de densidad de distribución normal evaluada en puntos y i , parametrizada por medio de α + β x i y desviación estándar σ .norteyyoα+βXyoσ

En el enfoque bayesiano en lugar de maximizar la función de probabilidad solo, asumiríamos distribuciones previas para los parámetros y usaríamos el teorema de Bayes

posteriorprobabilidad×anterior

La función de probabilidad es la misma que la anterior, pero lo que cambia es que usted asume algunas distribuciones previas para los parámetros estimados y los incluye en la ecuaciónα,β,σ

F(α,β,σY,X)posterioryo=1nortenorte(yyoα+βXyo,σ)probabilidadFα(α)Fβ(β)Fσ(σ)priors

"¿Qué distribuciones?" Es una pregunta diferente, ya que hay un número ilimitado de opciones. Para los parámetros podría, por ejemplo, asumir distribuciones normales parametrizadas por algunos hiperparámetros , o distribución t si desea asumir colas más pesadas, o distribución uniforme si no desea hacer muchas suposiciones, pero desea asumir que el los parámetros pueden ser a priori "cualquier cosa en el rango dado", etc. Para σ necesita suponer alguna distribución previa que esté limitada a ser mayor que cero, ya que la desviación estándar debe ser positiva. Esto puede conducir a la formulación del modelo como se ilustra a continuación por John K. Kruschke.α,βtσ

Formulación del modelo de regresión lineal bayesiano

(fuente: http://www.indiana.edu/~kruschke/BMLR/ )

Mientras que con la máxima probabilidad buscaba un único valor óptimo para cada uno de los parámetros, en el enfoque bayesiano aplicando el teorema de Bayes obtiene la distribución posterior de los parámetros. La estimación final dependerá de la información que proviene de sus datos y de sus priores , pero cuanta más información está contenida en sus datos, menos influyentes son priores .

Tenga en cuenta que cuando se usan priors uniformes, toman forma después de soltar las constantes de normalización. Esto hace que el teorema de Bayes sea proporcional solo a la función de probabilidad, por lo que la distribución posterior alcanzará su máximo en exactamente el mismo punto que la estimación de máxima probabilidad. Lo que sigue, la estimación bajo los uniformes anteriores será la misma que al usar mínimos cuadrados ordinarios ya que minimizar los errores al cuadrado corresponde a maximizar la probabilidad normal .F(θ)1

Para estimar un modelo en el enfoque bayesiano en algunos casos, puede usar anteriores conjugados , de modo que la distribución posterior esté directamente disponible (vea el ejemplo aquí ). Sin embargo, en la gran mayoría de los casos, la distribución posterior no estará disponible directamente y tendrá que utilizar los métodos de Markov Chain Monte Carlo para estimar el modelo (consulte este ejemplo de uso del algoritmo Metropolis-Hastings para estimar parámetros de regresión lineal). Finalmente, si solo le interesan las estimaciones puntuales de los parámetros, podría utilizar la estimación máxima a posteriori , es decir

unarsolmetrounaXα,β,σF(α,β,σY,X)

Para obtener una descripción más detallada de la regresión logística, puede consultar el modelo logit bayesiano: ¿explicación intuitiva? hilo.

Para obtener más información, puede consultar los siguientes libros:

Kruschke, J. (2014). Haciendo análisis de datos bayesianos: un tutorial con R, JAGS y Stan. Prensa Académica

Gelman, A., Carlin, JB, Stern, HS y Rubin, DB (2004). Análisis de datos bayesianos. Chapman & Hall / CRC.

Tim
fuente
2
+1 Dada la forma en que se plantea la pregunta, quizás enfatice un poco más esta diferencia filosófica: en mínimos cuadrados ordinarios y estimación de máxima verosimilitud, comenzamos con la pregunta "¿Cuáles son los mejores valores para (quizás para más adelante utilizar)?" βi, mientras que en el enfoque bayesiano completo, comenzamos con la pregunta "¿Qué podemos decir sobre los valores desconocidos ?" βyoy luego tal vez proceda a utilizar la media máxima a posteriori o posterior si se necesita una estimación puntual.
JiK
2
+1. Una cosa más que podría ser útil señalar para aclarar la relación entre los enfoques Bayesian y OLS es que OLS puede entenderse como media posterior bajo un previo plano (al menos hasta donde yo entiendo). Sería genial si pudieras explicarlo un poco en tu respuesta.
ameba dice Reinstate Monica
@amoeba es un buen punto, lo pensaré. Pero por otro lado, no quiero hacer la respuesta abiertamente larga, por lo que hay un punto en ir a los detalles.
Tim
1
@amoeba FYI, agregué un breve comentario al respecto.
Tim
22

Dado un conjunto de datos donde x R d , y R , una regresión lineal bayesiana modela el problema de la siguiente manera:re=(X1,y1),...,(Xnorte,ynorte)XRre,yR

Anterior:

wnorte(0 0,σw2yore)

es vector ( w 1 , ... , w d ) T , por lo que la distribución anterior es un gaussiano multivariante; y I d es lamatriz de identidad d × d .w(w1,...,wre)Tyorere×re

Probabilidad:

Yyonorte(wTXyo,σ2)

Suponemos que YyoYjEl |w,yoj

una=1/ /σ2si=1/ /σw2una,si

pags(w)Exp{-si2wtw}

pags(reEl |w)Exp{-una2(y-UNAw)T(y-UNAw)}

y=(y1,...,ynorte)TUNAnorte×reXyoT

pags(wEl |re)pags(reEl |w)pags(w)

Después de muchos cálculos descubrimos que

pags(wEl |re)norte(wEl |μ,Λ-1)

Λ

Λ=unaUNATUNA+siyore
μ=unaΛ-1UNATy

μwMETROUNAPAGS

μΛ=unaUNATUNA+siyore

μ=(UNATUNA+siunayore)-1UNATy

wMETROLmi

wMETROLmi=(UNATUNA)-1UNATy

μλ=siuna

Para la distribución posterior predictiva:

pags(yEl |X,re)=pags(yEl |X,re,w)pags(wEl |X,re)rew=pags(yEl |X,w)pags(wEl |re)rew

es posible calcular eso

yEl |X,renorte(μTX,1una+XTΛ-1X)

Referencia: Lunn et al. El libro BUGS

Para utilizar una herramienta MCMC como JAGS / Stan, consulte el Análisis de datos bayesianos de Kruschke

jpneto
fuente
Gracias jpneto Siento que esta es una gran respuesta, pero todavía no la entiendo debido a la falta de conocimientos de matemáticas. Pero definitivamente lo leeré nuevamente después de adquirir algunas habilidades matemáticas
TinglTanglBob
1
Esto es muy bueno, pero la suposición de que se conoce la precisión es poco común. ¿No es mucho más común suponer una distribución Gamma inversa para la varianza, es decir, una distribución Gamma para la precisión?
DeltaIV
w
wnorte(0 0,λ-1yore)λ
1
@DeltaIV: claro, cuando tenemos incertidumbre sobre un parámetro podemos modelarlo con un previo. La suposición de precisión conocida es facilitar la búsqueda de una solución analítica. Por lo general, esas soluciones analíticas no son posibles y debemos usar aproximaciones, como MCMC o alguna técnica variacional.
jpneto