Lazo bayesiano vs lazo ordinario

24

Hay diferentes programas de implementación disponibles para el lazo . Sé mucho sobre el enfoque bayesiano frente al enfoque frecuentista en diferentes foros. Mi pregunta es muy específica para el lazo: ¿Cuáles son las diferencias o ventajas del lazo baysiano en comparación con el lazo normal ?

Aquí hay dos ejemplos de implementación en el paquete:

# just example data
set.seed(1233)
X <- scale(matrix(rnorm(30),ncol=3))[,]
set.seed(12333)
Y <- matrix(rnorm(10, X%*%matrix(c(-0.2,0.5,1.5),ncol=1), sd=0.8),ncol=1)

require(monomvn) 
## Lasso regression
reg.las <- regress(X, Y, method="lasso")

## Bayesian Lasso regression
reg.blas <- blasso(X, Y)

Entonces, ¿cuándo debo elegir uno u otro método? ¿O son lo mismo?

rdorlearn
fuente

Respuestas:

30

El lazo estándar utiliza una penalización de regularización L1 para lograr la dispersión en la regresión. Tenga en cuenta que esto también se conoce como Basis Pursuit .

En el marco bayesiano, la elección del regularizador es análoga a la elección de prior sobre los pesos. Si se usa un previo gaussiano, la solución de Máximo a posteriori (MAP) será la misma que si se usara una penalización L2. Aunque no es directamente equivalente, el anterior de Laplace (que tiene un pico agudo alrededor de cero, a diferencia del gaussiano que es suave alrededor de cero), produce el mismo efecto de contracción a la penalización L1. Este artículo describe el lazo bayesiano. .

De hecho, cuando coloca un Laplace antes sobre los parámetros, la solución MAP debe ser idéntica (no simplemente similar) a la regularización con la penalización L1 y el Laplace anterior producirá un efecto de contracción idéntico a la penalización L1. Sin embargo, debido a las aproximaciones en el procedimiento de inferencia bayesiano u otros problemas numéricos, las soluciones pueden no ser idénticas.

En la mayoría de los casos, los resultados producidos por ambos métodos serán muy similares. Dependiendo del método de optimización y de si se utilizan aproximaciones, el lazo estándar probablemente será más eficiente de calcular que la versión bayesiana. El Bayesiano produce automáticamente estimaciones de intervalo para todos los parámetros, incluida la varianza del error, si es necesario.

tdc
fuente
"Si se utiliza un previo gaussiano, entonces la solución de máxima verosimilitud será la misma ...". La frase resaltada debería leer "Máximo A posteriori (MAP)" porque la estimación de máxima verosimilitud ignorará la distribución previa sobre los parámetros, lo que conducirá a una solución no regularizada, mientras que la estimación de MAP tiene en cuenta lo anterior.
mefathy
1
Cuando coloca un Laplace anterior sobre los parámetros, la solución MAP será idéntica (no simplemente similar) a la regularización con la penalización L1 y el Laplace anterior producirá un efecto de contracción idéntico a la penalización L1.
mefathy
@mefathy sí, tienes razón en ambos aspectos (no puedo creer que escribí ML en lugar de MAP ...), aunque, por supuesto, en la práctica YMMV. He actualizado la respuesta para incorporar ambos comentarios.
tdc
6

"Mínimos cuadrados" significa que la solución general minimiza la suma de los cuadrados de los errores cometidos en los resultados de cada ecuación. La aplicación más importante es el ajuste de datos. El mejor ajuste en el sentido de mínimos cuadrados minimiza la suma de los residuos al cuadrado, un residuo es la diferencia entre un valor observado y el valor ajustado proporcionado por un modelo. Los problemas de mínimos cuadrados se dividen en dos categorías: mínimos cuadrados lineales u ordinarios y no mínimos cuadrados lineales, dependiendo de si los residuos son lineales o no en todas las incógnitas.

La regresión lineal bayesiana es un enfoque de regresión lineal en el que el análisis estadístico se lleva a cabo dentro del contexto de la inferencia bayesiana. Cuando el modelo de regresión tiene errores que tienen una distribución normal, y si se asume una forma particular de distribución previa, hay resultados explícitos disponibles para las distribuciones de probabilidad posteriores de los parámetros del modelo.

β2

β1 . En un contexto bayesiano, esto es equivalente a colocar una distribución previa de Laplace de media cero en el vector de parámetros.

Una de las principales diferencias entre Lasso y la regresión de cresta es que en la regresión de cresta, a medida que aumenta la penalización, todos los parámetros se reducen sin dejar de ser cero, mientras que en Lazo, aumentar la penalización hará que más y más de los parámetros sean conducido a cero.

Este artículo compara el lazo regular con el lazo bayesiano y la regresión de cresta (ver figura 1 ).

John
fuente