La regularización de L2 es equivalente a Prior Gaussiano

56

Sigo leyendo esto e intuitivamente puedo ver esto, pero ¿cómo se pasa de la regularización L2 a decir que este es un Prior Gaussiano analíticamente? Lo mismo ocurre con decir que L1 es equivalente a un previo de Laplace.

Cualquier otra referencia sería genial.

regression references regularization Anónimo
fuente

54

Imaginemos que desea inferir algún parámetro de algunos pares de entrada-salida observados . Supongamos que las salidas están relacionadas linealmente con las entradas a través de y que los datos están dañados por algún ruido : $\beta$ $(x_1,y_1)\dots,(x_N,y_N)$ $\beta$ $\epsilon$

y_{n} = β x_{n} + ϵ,

$y_n = \beta x_n + \epsilon,$

donde es ruido gaussiano con media y varianza . Esto da lugar a una probabilidad gaussiana: $\epsilon$ $0$ $\sigma^2$

\prod_{n = 1}^{N} N (y_{n} | β x_{n}, σ^{2}) .

$\prod_{n=1}^N \mathcal{N}(y_n|\beta x_n,\sigma^2).$

Regularicemos el parámetro imponiendo el anterior gaussiano donde es un escalar estrictamente positivo. Por lo tanto, combinando la probabilidad y lo anterior simplemente tenemos: $\beta$ $\mathcal{N}(\beta|0,\lambda^{-1}),$ $\lambda$

\prod_{n = 1}^{N} N (y_{n} | β x_{n}, σ^{2}) N (β | 0, λ^{- 1}) .

$\prod_{n=1}^N \mathcal{N}(y_n|\beta x_n,\sigma^2) \mathcal{N}(\beta|0,\lambda^{-1}).$

Tomemos el logaritmo de la expresión anterior. Soltando algunas constantes obtenemos:

\sum_{n = 1}^{N} - \frac{1}{σ^{2}} (y_{n} - β x_{n})^{2} - λ β^{2} + const .

$\sum_{n=1}^N -\frac{1}{\sigma^2}(y_n-\beta x_n)^2 - \lambda \beta^2 + \mbox{const}.$

Si maximizamos la expresión anterior con respecto a , obtenemos la llamada estimación máxima a posteriori para , o estimación MAP para abreviar. En esta expresión se hace evidente por qué el prior gaussiano puede interpretarse como un término de regularización L2. $\beta$ $\beta$

Del mismo modo, la relación entre la norma L1 y la Laplace anterior puede entenderse de la misma manera. Tome en lugar de un prior gaussiano, un prior de Laplace combínelo con su probabilidad y tome el logaritmo.

Una buena referencia (quizás un poco avanzada) que detalla ambos problemas es el documento "Escasez adaptativa para el aprendizaje supervisado", que actualmente no parece fácil de encontrar en línea. Alternativamente, mira "Escasez adaptativa con Jeffreys Prior" . Otra buena referencia es "Sobre la clasificación bayesiana con antecedentes de Laplace" .

ngiann
fuente

1

En un D dimensioncaso de regresión lineal, ¿pueden betay sigmatienen soluciones explícitas? Estoy leyendo PRML y encuentro la ecuación (1.67) en la página 30 y no tengo idea de cómo resolverla. Con la máxima probabilidad, resolvemos betay luego sigmaajustamos el gradiente a cero. En el cuadrado mínimo regularizado, dado que se conoce el parámetro de reqularización, algunos lambdalo resolvemos betadirectamente. Pero si resolvemos directamente el MAP, ¿cuál es el fin de resolver beta, sigma? ¿Pueden tener una solución explícita o debemos usar un proceso iterativo?

stackunderflow

¿Te falta un "cuadrado" en en la última ecuación, es decir, ?

λ β

$\lambda \beta$

λ β^{2}

$\lambda \beta^2$

brian.keng

@AdamO Limita el número de valores que pueden tomar los coeficientes. Si el previo está entre 1-10, por ejemplo, entonces hay 0 probabilidad de que el coeficiente tome cualquier otro valor, es decir, [-inf a 1] y [10, + inf].

imsrgadich

1

En este caso se conoce . ¿Funciona cuando es desconocido? Para la regresión lineal bayesiana, se podría usar un gamma inverso previo para formar un conjugado antes de la varianza. Pero no estoy seguro de que el álgebra equivaldría a la misma expresión.

σ^{2}

$\sigma^2$

σ^{2}

$\sigma^2$

AdamO

11

Para un modelo lineal con probabilidad normal multivariada anterior y normal multivariada, se obtiene una distribución posterior normal multivariada en la que la media del modelo posterior (y el modelo a posteriori máximo) es exactamente lo que se obtendría con Tikhonov regularizado ( regularizado) mínimos cuadrados con un parámetro de regularización apropiado. $L_{2}$

Tenga en cuenta que hay una diferencia más fundamental en que el posterior bayesiano es una distribución de probabilidad, mientras que la solución de mínimos cuadrados regularizados de Tikhonov es una estimación puntual específica.

Esto se discute en muchos libros de texto sobre métodos bayesianos para problemas inversos. Véase, por ejemplo:

http://www.amazon.com/Inverse-Problem-Methods-Parameter-Estimation/dp/0898715725/

http://www.amazon.com/Parameter-Estimation-Inverse-Problems-Second/dp/0123850487/

De manera similar, si tiene una probabilidad laplaciana anterior y una probabilidad normal multivariada, entonces el máximo de la distribución posterior se produce en un punto que podría obtener al resolver un problema de mínimos cuadrados regularizados . $L_{1}$

Brian Borchers
fuente

9

Primero observe que la mediana minimiza la norma L1 (consulte aquí o aquí para obtener más información sobre L1 y L2)

median (x) = \underset{s}{a r g m i n} \sum_{i} | x_{i} - s |^{1}

$\DeclareMathOperator*{\argmin}{arg\,min} \text{median}(x) = \argmin_s \sum_i |x_i - s|^1$

mientras que la media minimiza L2

mean (x) = \underset{s}{a r g m i n} \sum_{i} | x_{i} - s |^{2}

$\text{mean}(x) = \argmin_s \sum_i |x_i - s|^2$

ahora, recuerde que el parámetro distribuciones normales se puede estimar usando la media muestral , mientras que el estimador MLE para el parámetro de distribución Laplace es la mediana. Por lo tanto, el uso de la distribución Normal es equivalente a la optimización de la norma L2 y el uso de la distribución de Laplace, al uso de la optimización L1. En la práctica, puede pensar que esa mediana es menos sensible a los valores atípicos que a la media, y de la misma manera, el uso de la distribución de Laplace de cola más gruesa como anterior hace que su modelo sea menos propenso a los valores atípicos que el uso de la distribución Normal. $\mu$ $\mu$

Hurley, WJ (2009) Un enfoque inductivo para calcular el MLE para la distribución exponencial doble . Revista de métodos estadísticos aplicados modernos: 8 (2), artículo 25.

Tim
fuente

Quizás esta no sea la respuesta matemáticamente más rigurosa dada aquí, pero definitivamente es la más fácil e intuitiva para un principiante en la regularización L1 / L2.

SQLServerSteve

8

Para un problema de regresión con variables (sin intercepción), debe realizar OLS como $k$

min_{β} (y - X β)^{'} (y - X β)

$\min_{\beta} (y - X \beta)' (y - X \beta)$

En regresión regularizada con penalización , lo haces $L^p$

min_{β} (y - X β)^{'} (y - X β) + λ \sum_{i = 1}^{k} | β_{i} |^{p}

$\min_{\beta} (y - X \beta)' (y - X \beta) + \lambda \sum_{i=1}^k |\beta_i|^p$

Podemos hacer de manera equivalente (tenga en cuenta que el signo cambia)

max_{β} - (y - X β)^{'} (y - X β) - λ \sum_{i = 1}^{k} | β_{i} |^{p}

$\max_{\beta} -(y - X \beta)' (y - X \beta) - \lambda \sum_{i=1}^k |\beta_i|^p$

Esto se relaciona directamente con el principio bayesiano de

p o s t e r i o r \propto l i k e l i h o o d \times p r i o r

$posterior \propto likelihood \times prior$

o equivalente (en condiciones de regularidad)

l o g (p o s t e r i o r) \sim l o g (l i k e l i h o o d) + l o g (p e n a l t y)

$log(posterior) \sim log(likelihood) + log(penalty)$

Ahora no es difícil ver qué distribución familiar exponencial corresponde a qué tipo de penalización.

Georg M. Goerg
fuente

3

Para poner la equivalencia con mayor precisión:

La optimización de los pesos del modelo para minimizar una función de pérdida de error al cuadrado con la regularización L2 es equivalente a encontrar los pesos que son más probables bajo una distribución posterior evaluada utilizando la regla de Bayes, con pesos gaussianos independientes de media cero antes

Prueba:

La función de pérdida como se describió anteriormente estaría dada por

L = \underset{O r i g i n a l l o s s f u n c t i o n}{\underset{⏟}{[\sum_{n = 1}^{N} (y^{(n)} - f_{w} (x^{(n)}))^{2}]}} + \underset{L_{2} l o s s}{\underset{⏟}{λ \sum_{i = 1}^{K} w_{i}^{2}}}

$L = \underbrace{\Big[ \sum_{n=1}^{N} (y^{(n)} - f_{\mathbf{w}}(\mathbf{x}^{(n)}))^{2} \Big] }_{Original \; loss \; function} + \underbrace{\lambda \sum_{i=1}^{K} w_{i}^{2}}_{L_{2} \; loss}$

Tenga en cuenta que la distribución para un gaussiano multivariante es

N (x; μ, Σ) = \frac{1}{(2 π)^{D / 2} | Σ |^{1 / 2}} \exp (- \frac{1}{2} (x - μ)^{⊤} Σ^{- 1} (x - μ))

$\mathcal{N}(\mathbf{x}; \mathbf{\mu}, \Sigma) = \frac{1}{(2 \pi)^{D/2}|\Sigma|^{1/2}} \exp\Big(-\frac{1}{2} (\mathbf{x} -\mathbf{\mu})^{\top} \Sigma^{-1} (\mathbf{x} -\mathbf{\mu})\Big)$

Usando la regla de Bayes, tenemos que

\begin{aligned} p (w | D) & = \frac{p (D | w) p (w)}{p (D)} \\ \propto p (D | w) p (w) \\ \propto [\prod_{n}^{N} N (y^{(n)}; f_{w} (x^{(n)}), σ_{y}^{2})] N (w; 0, σ_{w}^{2} I) \\ \propto \prod_{n}^{N} N (y^{(n)}; f_{w} (x^{(n)}), σ_{y}^{2}) \prod_{i = 1}^{K} N (w_{i}; 0, σ_{w}^{2}) \end{aligned}

$\begin{split} p(\mathbf{w}|\mathcal{D}) &= \frac{p(\mathcal{D}|\mathbf{w}) \; p(\mathbf{w})}{p(\mathcal{D})}\newline &\propto p(\mathcal{D}|\mathbf{w}) \; p(\mathbf{w})\newline &\propto \Big[ \prod_{n}^{N} \mathcal{N}(y^{(n)}; f_{\mathbf{w}}(\mathbf{x}^{(n)}), \sigma_{y}^{2})\Big] \; \mathcal{N}(\mathbf{w}; \mathbf{0}, \sigma_{\mathbf{w}}^{2} \mathbb{I})\newline &\propto \prod_{n}^{N} \mathcal{N}(y^{(n)};f_{\mathbf{w}}(\mathbf{x}^{(n)}) , \sigma_{y}^{2}) \prod_{i=1}^{K} \mathcal{N}(w_{i}; \, 0, \, \sigma_{\mathbf{w}}^{2}) \newline \end{split}$

Donde podemos dividir el Guassian multidimensional en un producto, porque la covarianza es un múltiplo de la matriz de identidad.

Tome la probabilidad de registro negativa

\begin{aligned} - \log [p (w | D)] & = - \sum_{n = 1}^{N} \log [N (y^{(n)}; f_{w} (x^{(n)}), σ_{y}^{2})] - \sum_{i = 1}^{K} \log [N (w_{i}; 0, σ_{w}^{2})] + c o n s t . \\ = \frac{1}{2 σ_{y}^{2}} \sum_{n = 1}^{N} (y^{(n)} - f_{w} (x^{(n)}))^{2} + \frac{1}{2 σ_{w}^{2}} \sum_{i = 1}^{K} w_{i}^{2} + c o n s t . \end{aligned}

$\begin{split} -\log \big[p(\mathbf{w}|\mathcal{D}) \big] &= -\sum_{n=1}^{N} \log \big[\mathcal{N}(y^{(n)}; f_{\mathbf{w}}(\mathbf{x}^{(n)}), \sigma_{y}^{2}) \big] - \sum_{i=1}^{K} \log \big[ \mathcal{N}(w_{i}; \, 0, \, \sigma_{\mathbf{w}}^{2}) \big] + const. \newline &= \frac{1}{2\sigma_{y}^{2}} \sum_{n=1}^{N} \big(y^{(n)} - f_{\mathbf{w}}(\mathbf{x}^{(n)})\big)^{2} + \frac{1}{2\sigma_{\mathbf{w}}^{2}} \sum_{i=1}^{K} w_{i}^{2} + const. \newline \end{split}$

Por supuesto, podemos soltar la constante y multiplicar por cualquier cantidad sin afectar fundamentalmente la función de pérdida. (constante no hace nada, la multiplicación efectivamente escala la tasa de aprendizaje. No afectará la ubicación de los mínimos) Por lo tanto, podemos ver que la probabilidad logarítmica negativa de la distribución posterior es una función de pérdida equivalente a la función de pérdida de error cuadrada regularizada L2.

Este equilibrio general es general y se aplica a cualquier función parametrizada de pesos, no solo a la regresión lineal, como parece estar implicado anteriormente.

nickelnine37
fuente

1

Hay dos características del modelado bayesiano que deben enfatizarse, cuando se discute el equivalente de ciertas estimaciones penalizadas de máxima verosimilitud y procedimientos bayesianos.

En el marco bayesiano, el previo se selecciona en función de los detalles del problema y no está motivado por la conveniencia computacional. Por lo tanto, los bayesianos usan una variedad de antecedentes, incluido el ahora popular antes de herradura para problemas de predicción dispersos, y no necesitan confiar tanto en los antecedentes que son equivalentes a las penalizaciones L1 o L2.
Con un enfoque bayesiano completo, tendrá acceso a todos los procedimientos de inferencia cuando haya terminado. Por ejemplo, puede cuantificar la evidencia de grandes coeficientes de regresión y puede obtener intervalos creíbles sobre los coeficientes de regresión y los valores generales pronosticados. En el marco frecuentista, una vez que elige la penalización, pierde toda la máquina inferencial.

Frank Harrell
fuente

La regularización de L2 es equivalente a Prior Gaussiano

Respuestas: