22

Estaba revisando la literatura sobre regularización, y a menudo veo párrafos que vinculan la regulación de L2 con Gaussian anterior, y L1 con Laplace centrada en cero.

Sé cómo se ven estos anteriores, pero no entiendo cómo se traduce, por ejemplo, a los pesos en el modelo lineal. En L1, si entiendo correctamente, esperamos soluciones dispersas, es decir, algunos pesos se llevarán exactamente a cero. Y en L2 tenemos pesos pequeños pero no pesos cero.

¿Pero por qué sucede?

Comente si necesito proporcionar más información o aclarar mi camino de pensamiento.

regression bayesian prior regularization laplace-distribution Dmitry Smirnov
fuente

Relacionado: ¿Por qué la pena de Lasso es equivalente al doble exponencial (Laplace) anterior?

ameba dice Reinstate Monica

1

Una explicación intuitiva realmente simple es que la penalización disminuye cuando se usa una norma L2 pero no cuando se usa una norma L1. Entonces, si puede mantener la parte del modelo de la función de pérdida aproximadamente igual y puede hacerlo disminuyendo una de dos variables, es mejor disminuir la variable con un valor absoluto alto en el caso L2 pero no en el caso L1.

testuser

21

La relación de la distribución de Laplace anterior con la mediana (o la norma L1) fue encontrada por el propio Laplace, quien descubrió que utilizando dicha distribución anterior se estima la mediana en lugar de la media como con la distribución Normal (ver Stingler, 1986 o Wikipedia ). Esto significa que la regresión con la distribución de errores de Laplace estima la mediana (como, por ejemplo, la regresión cuantil), mientras que los errores normales se refieren a la estimación de OLS.

Tibshirani (1996) también describió los robustos antecedentes sobre los que preguntó, y notó que la regresión robusta de Lasso en el entorno bayesiano es equivalente a usar Laplace antes. Tales coeficientes anteriores para se centran alrededor de cero (con variables centradas) y tienen colas anchas, por lo que la mayoría de los coeficientes de regresión estimados al usarlo terminan siendo exactamente cero. Esto está claro si observa de cerca la imagen a continuación, la distribución de Laplace tiene un pico alrededor de cero (hay una mayor masa de distribución), mientras que la distribución Normal es más difusa alrededor de cero, por lo que los valores distintos de cero tienen una mayor masa de probabilidad. Otras posibilidades para anteriores robustas son las distribuciones Cauchy o . $t$

Usando tales anteriores, es más propenso a terminar con muchos coeficientes de valor cero, algunos de tamaño moderado y otros de gran tamaño (cola larga), mientras que con Normal anterior obtiene coeficientes de tamaño más moderado que no son exactamente cero, pero Tampoco tan lejos de cero.

(fuente de la imagen Tibshirani, 1996)

Stigler, SM (1986). La historia de la estadística: la medición de la incertidumbre antes de 1900. Cambridge, MA: Belknap Press de Harvard University Press.

Tibshirani, R. (1996). Contracción de la regresión y selección a través del lazo. Revista de la Real Sociedad Estadística. Serie B (Metodológica), 267-288.

Gelman, A., Jakulin, A., Pittau, GM y Su, Y.-S. (2008) Una distribución previa predeterminada débilmente informativa para modelos logísticos y otros modelos de regresión. Los Anales de Estadísticas Aplicadas, 2 (4), 1360-1383.

Norton, RM (1984). La distribución exponencial doble: uso del cálculo para encontrar un estimador de máxima verosimilitud. El estadístico estadounidense, 38 (2): 135-136.

Tim
fuente

Wow, esta es una muy buena explicación, y también un agradecimiento especial por la pregunta vinculada donde las normas de regularización están intuitivamente vinculadas al modo, meadian y mean, ¡esto realmente me aclara mucho!

Dmitry Smirnov

1

@Tim, la distribución Cauchy tiene cola pesada, pero la probabilidad de cero es menor que la distribución normal. Entonces, ¿cómo es que induce una solución escasa?

Royi el

4

Vista frecuente 👀

En cierto sentido, podemos pensar en ambas regularizaciones como "reducir los pesos" ; L2 minimiza la norma euclidiana de los pesos, mientras que L1 minimiza la norma de Manhattan. Siguiendo esta línea de pensamiento, podemos razonar que los equipotenciales de L1 y L2 son esféricos y en forma de diamante respectivamente, por lo que es más probable que L1 conduzca a soluciones dispersas, como se ilustra en el Reconocimiento de patrones y el aprendizaje automático de Bishop :

Vista bayesiana 👀

Sin embargo, para comprender cómo se relacionan los antecedentes con el modelo lineal , necesitamos comprender la interpretación bayesiana de la regresión lineal ordinaria . El blog de Katherine Bailey es una excelente lectura para esto. En pocas palabras, asumimos errores de iid normalmente distribuidos en nuestro modelo lineal

y = θ^{⊤} X + ϵ

$\mathbf{y} = \mathbf{\theta}^\top\mathbf{X} + \mathbf\epsilon$

$N$ $y_i, i = 1, 2, \ldots, N$ $\epsilon_k\sim \mathcal{N}(0,\sigma)$

$\mathbf{y}$

pags (y El | X, θ; ϵ) = norte (θ^{⊤} X, σ)

$\begin{equation} p(\mathbf{y}|\mathbf{X}, \mathbf{\theta}; \mathbf{\epsilon}) = \mathcal{N}(\mathbf{\theta}^\top\mathbf{X}, \mathbf{\sigma}) \end{equation}$

Como resultado ... El estimador de máxima verosimilitud es idéntico a minimizar el error al cuadrado entre los valores de salida pronosticados y reales bajo el supuesto de normalidad para el error.

\begin{aligned} {\hat{θ}}_{MLE} & = \arg max_{θ} Iniciar sesión PAGS (y El | θ) \\ = \underset{θ}{\arg min} \sum_{yo = 1}^{norte} (y_{yo} - θ^{⊤} X_{yo})^{2} \end{aligned}

$\begin{align*} {\bf \hat{\theta}_{\text{MLE}}} &= \arg\max_{\bf \theta} \log P(y | \theta) \\ &=\underset{\theta}{\arg\min} \sum_{i=1}^n(y_i - \theta^\top{\mathbf{x}_i})^2 \end{align*}$

Regularización como priorizar pesas

Si tuviéramos que colocar un previo no uniforme en los pesos de la regresión lineal, la estimación de la probabilidad máxima a posteriori (MAP) sería:

{\hat{θ}}_{MAPA} = \arg max_{θ} Iniciar sesión PAGS (y El | θ) + Iniciar sesión PAGS (θ)

$\begin{equation*} {\bf \hat{\theta}_{\text{MAP}}} = \arg\max_{\bf \theta} \log P(y | \theta) + \log P(\theta) \end{equation*}$

$P(\theta)$ $\theta$

Ahora tenemos otra visión de por qué es más probable que colocar un Laplace antes de los pesos induzca la dispersión: debido a que la distribución de Laplace está más concentrada en torno a cero , es más probable que nuestros pesos sean cero.

Christabella Irwanto
fuente

¿Por qué Laplace produce soluciones dispersas antes?

Respuestas:

Vista frecuente 👀

Vista bayesiana 👀

Regularización como priorizar pesas