Si el LASSO es equivalente a la regresión lineal con un Laplace anterior, ¿cómo puede haber masa en conjuntos con componentes en cero?

20

Todos estamos familiarizados con la idea, bien documentada en la literatura, de que la optimización de LASSO (en aras de la simplicidad limita aquí la atención al caso de la regresión lineal) es equivalente al modelo lineal con errores gaussianos en el que los parámetros reciben la Laplace anterior \ exp (- \ lambda \ | \ beta \ | _1) También somos conscientes de que el más alto establece el parámetro de ajuste, \ lambda , cuanto mayor sea la parte de los parámetros se establece en cero. Dicho esto, tengo la siguiente pregunta de pensamiento:

loss=yXβ22+λβ1

exp(λβ1)
λ

Tenga en cuenta que, desde el punto de vista bayesiano, podemos calcular la probabilidad posterior de que, por ejemplo, las estimaciones de los parámetros distintos de cero se encuentren en cualquier conjunto de intervalos y los parámetros establecidos en cero por LASSO son iguales a cero. Lo que me ha confundido es, dado que el previo de Laplace es continuo (de hecho absolutamente continuo), entonces, ¿cómo puede haber una masa en cualquier conjunto que sea producto de intervalos y singletons en {0} ?

Grant Izmirlian
fuente
8
¿Qué te hace pensar que el posterior no es también un pdf continuo? El hecho de que el máximo de la parte posterior ocurra en un punto que tiene muchos componentes 0 no significa en sí mismo que la parte posterior no sea un pdf continuo.
Brian Borchers
El posterior es un PDF continuo. Visto como estimación de máxima verosimilitud restringida, si imaginamos sorteos repetidos de la misma distribución de datos cuando el modelo verdadero tiene ceros en coeficientes de regresión múltiple y la constante de ajuste es lo suficientemente grande, el CMLE siempre tendrá los mismos componentes establecidos en cero y cero parámetros se extenderán en los intervalos de confianza correspondientes. Desde la perspectiva bayesiana, esto equivale a tener una probabilidad positiva de tales conjuntos. Mi pregunta es cómo puede ser así para una distribución continua.
Grant Izmirlian
2
La solución CLME coincide con la estimación MAP. Realmente no hay nada más que decir.
Sycorax dice Reinstate Monica
3
La solución CMLE no es una muestra de la parte posterior.
Brian Borchers
2
No hay contradicción porque el posterior no pone masa en conjuntos de menor dimensión.
Xi'an

Respuestas:

7

Como todos los comentarios anteriores, la interpretación bayesiana de LASSO no está tomando el valor esperado de la distribución posterior, que es lo que querría hacer si fuera un purista. Si ese fuera el caso, tendría razón en que hay muy pocas posibilidades de que el posterior sea cero dados los datos.

En realidad, la interpretación bayesiana de LASSO está tomando el estimador MAP (máximo A posteriori) de la parte posterior. Parece que está familiarizado, pero para cualquiera que no lo sea, esto es básicamente la máxima probabilidad bayesiana, donde utiliza el valor que corresponde a la probabilidad máxima de ocurrencia (o el modo) como su estimador de los parámetros en LASSO. Dado que la distribución aumenta exponencialmente hasta cero desde la dirección negativa y cae exponencialmente en la dirección positiva, a menos que sus datos sugieran fuertemente que la beta es algún otro valor significativo, es probable que el valor máximo de su posterior sea 0.

En pocas palabras, su intuición parece estar basada en la media de la parte posterior, pero la interpretación bayesiana de LASSO se basa en tomar el modo de la parte posterior.

www3
fuente