¿Es la regresión de cresta bayesiana otro nombre de regresión lineal bayesiana?

11

Busqué sobre la Regresión Bayesian Ridge en Internet, pero la mayor parte del resultado que obtuve es sobre la Regresión Lineal Bayesian. Me pregunto si son las mismas cosas porque la fórmula se parece bastante

Thien
fuente

Respuestas:

20

La regresión de cresta utiliza la regularización con la norma L2 , mientras que la regresión bayesiana es un modelo de regresión definido en términos probabilísticos, con antecedentes explícitos sobre los parámetros. La elección de priors puede tener el efecto de regularización, por ejemplo, usar priors de Laplace para coeficientes es equivalente a la regularización L1 . No son lo mismo, porque la regresión por crestas es un tipo de modelo de regresión, y el enfoque bayesiano es una forma general de definir y estimar modelos estadísticos que se pueden aplicar a diferentes modelos.

El modelo de regresión de cresta se define como

argminβyXβ22+λβ22

En el entorno bayesiano, estimamos la distribución posterior utilizando el teorema de Bayes

p(θ|X)p(X|θ)p(θ)

La regresión de cresta significa asumir la probabilidad normal y la normal antes de los parámetros. Después de reducir la constante de normalización, la función de densidad logarítmica de la distribución normal es

logp(x|μ,σ)=log[1σ2πe12(xμσ)2]=log[1σ2π]+log[e12(xμσ)2]12(xμσ)21σ2xμ22

Ahora puede ver que maximizar la probabilidad de registro normal, con antecedentes normales, es equivalente a minimizar la pérdida al cuadrado, con penalización por cresta

argmaxβlogN(y|Xβ,σ)+logN(0,τ)=argminβ{logN(y|Xβ,σ)+logN(0,τ)}=argminβ1σ2yXβ22+1τ2β22

Para leer más sobre la regresión y regularización de crestas, vea los hilos: ¿Por qué la estimación de crestas se vuelve mejor que OLS al agregar una constante a la diagonal? y ¿Qué problema resuelven los métodos de contracción? , y ¿ Cuándo debo usar lasso vs ridge? , y ¿Por qué la regresión de cresta se llama "cresta", por qué es necesaria y qué sucede cuando llega al infinito? λ, y muchos otros que tenemos .

Tim
fuente
Gracias por la respuesta ! Traté de entender cuáles son las ventajas de la norma , la explicación en Scikit es un poco complicada para mí. Sería bueno si pudieras señalar el problema con los mínimos cuadrados ordinarios normalesL2
Thien
1
@Thien vea la edición de algunos enlaces
Tim