¿Existe una interpretación bayesiana de la regresión lineal con regularización simultánea de L1 y L2 (también conocida como red elástica)?

17

Es bien sabido que la regresión lineal con una penalización de es equivalente a encontrar la estimación MAP dada una Gaussiana anterior sobre los coeficientes. Del mismo modo, usar una penalización es equivalente a usar una distribución de Laplace como la anterior.l2l1

No es raro usar alguna combinación ponderada de regularización y . ¿Podemos decir que esto es equivalente a alguna distribución previa sobre los coeficientes (intuitivamente, parece que debe ser)? ¿Podemos darle a esta distribución una buena forma analítica (tal vez una mezcla de gaussiano y laplaciano)? ¿Si no, porque no?l1l2

Michael Curry
fuente
1
vea este documento: tandfonline.com/doi/abs/10.1198/jasa.2011.tm09241 (Si esto no se responde correctamente en una semana o dos, publicaré (más o menos) un resumen de ese documento)
user795305
77
Debo agregar que cada vez que los frecuentadores tienen una penalización , un bayesiano puede interpretar eso como un e ^ {- pen} previo (posiblemente incorrecto) bajo un modelo gaussiano estándar. penepen
user795305
¡Gracias, este documento y sus citas responden perfectamente a mi pregunta!
Michael Curry
¡Excelente! ¿Te importa señalar a qué citas te refieres? (Estoy planeando leer este documento pronto y estoy interesado en sus comentarios)
user795305
1
Ok, genial! Creo que su interpretación bayesiana se relaciona con mi segundo comentario
user795305

Respuestas:

6

Es probable que el comentario de Ben sea suficiente, pero proporciono algunas referencias más, una de las cuales es anterior al documento al que Ben hizo referencia.

Kyung et. Propuso una representación de red elástica bayesiana . Alabama. en su Sección 3.1. Aunque lo anterior para el coeficiente de regresión era correcto, los autores escribieron incorrectamente la representación de la mezcla.β

Roy y Chakraborty propusieron recientemente un modelo bayesiano corregido para la red elástica (su Ecuación 6). Los autores también presentan una muestra de Gibbs apropiada para tomar muestras de la distribución posterior, y muestran que la muestra de Gibbs converge a la distribución estacionaria a una velocidad geométrica. Por esta razón, estas referencias pueden resultar útiles, además del documento de Hans .

Greenparker
fuente
(+1) ¡Gran respuesta!
user795305
1
para cualquier persona en el futuro: vale la pena ver todos los documentos, pero el documento de Hans le ofrece algunos muestreadores de Gibbs para diversas distribuciones, así como una representación jerárquica de lo anterior que se puede traducir fácilmente a Stan.
Michael Curry