Modelo de regresión lineal simple
yyo= α + βXyo+ ε
se puede escribir en términos de modelo probabilístico detrás de él
μi=α+βxiyi∼N(μi,σ)
es decir, la variable dependiente sigue una distribución normal parametrizada por la media μ i , que es una función lineal de X parametrizada por α , β y por desviación estándar σ . Si estima dicho modelo utilizando mínimos cuadrados ordinarios , no tiene que preocuparse por la formulación probabilística, porque está buscando valores óptimos de los parámetros α , β minimizando los errores al cuadrado de los valores ajustados a los valores pronosticados. Por otro lado, puede estimar dicho modelo utilizando la estimación de máxima verosimilitudYμiXα,βσα,β, donde estaría buscando valores óptimos de parámetros maximizando la función de probabilidad
argmaxα,β,σ∏i=1nN(yi;α+βxi,σ)
donde es una función de densidad de distribución normal evaluada en puntos y i , parametrizada por medio de α + β x i y desviación estándar σ .Nyiα+βxiσ
En el enfoque bayesiano en lugar de maximizar la función de probabilidad solo, asumiríamos distribuciones previas para los parámetros y usaríamos el teorema de Bayes
posterior∝likelihood×prior
La función de probabilidad es la misma que la anterior, pero lo que cambia es que usted asume algunas distribuciones previas para los parámetros estimados y los incluye en la ecuaciónα,β,σ
f(α,β,σ∣Y,X)posterior∝ ∏i = 1nortenorte( yyo∣ α + βXyo, σ)probabilidadFα( α )Fβ( β)Fσ( σ)priors
"¿Qué distribuciones?" Es una pregunta diferente, ya que hay un número ilimitado de opciones. Para los parámetros podría, por ejemplo, asumir distribuciones normales parametrizadas por algunos hiperparámetros , o distribución t si desea asumir colas más pesadas, o distribución uniforme si no desea hacer muchas suposiciones, pero desea asumir que el los parámetros pueden ser a priori "cualquier cosa en el rango dado", etc. Para σ necesita suponer alguna distribución previa que esté limitada a ser mayor que cero, ya que la desviación estándar debe ser positiva. Esto puede conducir a la formulación del modelo como se ilustra a continuación por John K. Kruschke.α , βtσ
(fuente: http://www.indiana.edu/~kruschke/BMLR/ )
Mientras que con la máxima probabilidad buscaba un único valor óptimo para cada uno de los parámetros, en el enfoque bayesiano aplicando el teorema de Bayes obtiene la distribución posterior de los parámetros. La estimación final dependerá de la información que proviene de sus datos y de sus priores , pero cuanta más información está contenida en sus datos, menos influyentes son priores .
Tenga en cuenta que cuando se usan priors uniformes, toman forma después de soltar las constantes de normalización. Esto hace que el teorema de Bayes sea proporcional solo a la función de probabilidad, por lo que la distribución posterior alcanzará su máximo en exactamente el mismo punto que la estimación de máxima probabilidad. Lo que sigue, la estimación bajo los uniformes anteriores será la misma que al usar mínimos cuadrados ordinarios ya que minimizar los errores al cuadrado corresponde a maximizar la probabilidad normal .F( θ ) ∝ 1
Para estimar un modelo en el enfoque bayesiano en algunos casos, puede usar anteriores conjugados , de modo que la distribución posterior esté directamente disponible (vea el ejemplo aquí ). Sin embargo, en la gran mayoría de los casos, la distribución posterior no estará disponible directamente y tendrá que utilizar los métodos de Markov Chain Monte Carlo para estimar el modelo (consulte este ejemplo de uso del algoritmo Metropolis-Hastings para estimar parámetros de regresión lineal). Finalmente, si solo le interesan las estimaciones puntuales de los parámetros, podría utilizar la estimación máxima a posteriori , es decir
a r gm a xα ,β,σF( α , β, σ∣ Y, X)
Para obtener una descripción más detallada de la regresión logística, puede consultar el modelo logit bayesiano: ¿explicación intuitiva? hilo.
Para obtener más información, puede consultar los siguientes libros:
Kruschke, J. (2014). Haciendo análisis de datos bayesianos: un tutorial con R, JAGS y Stan. Prensa Académica
Gelman, A., Carlin, JB, Stern, HS y Rubin, DB (2004).
Análisis de datos bayesianos. Chapman & Hall / CRC.
Dado un conjunto de datos donde x ∈ R d , y ∈ R , una regresión lineal bayesiana modela el problema de la siguiente manera:D = ( x1, y1) , … , ( Xnorte, ynorte) x ∈ Rre, y∈ R
Anterior:
es vector ( w 1 , ... , w d ) T , por lo que la distribución anterior es un gaussiano multivariante; y I d es lamatriz de identidad d × d .w ( w1, ... , wre)T yore re× d
Probabilidad:
Suponemos queYyo⊥ YjEl | w,i≠j
Después de muchos cálculos descubrimos que
Para la distribución posterior predictiva:
es posible calcular eso
Referencia: Lunn et al. El libro BUGS
Para utilizar una herramienta MCMC como JAGS / Stan, consulte el Análisis de datos bayesianos de Kruschke
fuente