He leído en varias referencias que la estimación de Lasso para el vector de parámetro de regresión es equivalente al modo posterior de en el que la distribución previa para cada es una distribución exponencial doble (también conocida como distribución de Laplace).B i
He estado tratando de probar esto, ¿alguien puede desarrollar los detalles?
regression
bayesian
lasso
prior
regularization
Wintermute
fuente
fuente
Respuestas:
Para simplificar, consideremos una sola observación de una variable tal queY
f ( σ ) ∝ 1 σ > 0μ∼Laplace(λ)
y el anterior incorrecto
.f(σ)∝1σ>0
Entonces la densidad conjunta de es proporcional aY,μ,σ2
Tomar un registro y descartar términos que no involucren ,μ
Por lo tanto, el máximo de (1) será una estimación MAP y, de hecho, es el problema de Lazo después de que reparametricemosλ~=λσ2 .
La extensión de la regresión es clara: reemplace con en la probabilidad Normal, y establezca el anterior en para que sea una secuencia de distribuciones independientes de Laplace .X β β ( λ )μ Xβ β (λ)
fuente
Esto es obvio al inspeccionar la cantidad que el LASSO está optimizando.
Tome lo anterior para como Laplace independiente con media cero y algo de escala . τβi τ
Entonces .p(β|τ)∝e−12τ∑i|βi|
El modelo para los datos es el supuesto de regresión habitual .y∼iidN(Xβ,σ2)
Ahora menos dos veces el registro de la parte posterior es de la forma
1k(σ2,τ,n,p)+ 1σ2(y−Xβ)T(y−Xβ)+1τ∑i|βi|
Deje y obtenemos -posterior de- 2 logλ=σ2/τ −2log
1k(σ2,λ,n,p)+ 1σ2[(y−Xβ)T(y−Xβ)+λ∑i|βi|]
El estimador MAP para minimiza lo anterior, lo que minimizaβ
Entonces el estimador MAP para es LASSO.β
(Aquí traté a como solucionado de manera efectiva, pero puedes hacer otras cosas con él y aún así aparece LASSO).σ2
Editar: Eso es lo que obtengo por componer una respuesta fuera de línea; No vi una buena respuesta ya fue publicada por Andrew. El mío realmente no hace nada que el suyo ya no haga. Dejaré el mío por ahora porque da un par de detalles más del desarrollo en términos de .β
fuente