Estaba revisando la literatura sobre regularización, y a menudo veo párrafos que vinculan la regulación de L2 con Gaussian anterior, y L1 con Laplace centrada en cero.
Sé cómo se ven estos anteriores, pero no entiendo cómo se traduce, por ejemplo, a los pesos en el modelo lineal. En L1, si entiendo correctamente, esperamos soluciones dispersas, es decir, algunos pesos se llevarán exactamente a cero. Y en L2 tenemos pesos pequeños pero no pesos cero.
¿Pero por qué sucede?
Comente si necesito proporcionar más información o aclarar mi camino de pensamiento.
regression
bayesian
prior
regularization
laplace-distribution
Dmitry Smirnov
fuente
fuente
Respuestas:
La relación de la distribución de Laplace anterior con la mediana (o la norma L1) fue encontrada por el propio Laplace, quien descubrió que utilizando dicha distribución anterior se estima la mediana en lugar de la media como con la distribución Normal (ver Stingler, 1986 o Wikipedia ). Esto significa que la regresión con la distribución de errores de Laplace estima la mediana (como, por ejemplo, la regresión cuantil), mientras que los errores normales se refieren a la estimación de OLS.
Tibshirani (1996) también describió los robustos antecedentes sobre los que preguntó, y notó que la regresión robusta de Lasso en el entorno bayesiano es equivalente a usar Laplace antes. Tales coeficientes anteriores para se centran alrededor de cero (con variables centradas) y tienen colas anchas, por lo que la mayoría de los coeficientes de regresión estimados al usarlo terminan siendo exactamente cero. Esto está claro si observa de cerca la imagen a continuación, la distribución de Laplace tiene un pico alrededor de cero (hay una mayor masa de distribución), mientras que la distribución Normal es más difusa alrededor de cero, por lo que los valores distintos de cero tienen una mayor masa de probabilidad. Otras posibilidades para anteriores robustas son las distribuciones Cauchy o .t
Usando tales anteriores, es más propenso a terminar con muchos coeficientes de valor cero, algunos de tamaño moderado y otros de gran tamaño (cola larga), mientras que con Normal anterior obtiene coeficientes de tamaño más moderado que no son exactamente cero, pero Tampoco tan lejos de cero.
(fuente de la imagen Tibshirani, 1996)
Stigler, SM (1986). La historia de la estadística: la medición de la incertidumbre antes de 1900. Cambridge, MA: Belknap Press de Harvard University Press.
Tibshirani, R. (1996). Contracción de la regresión y selección a través del lazo. Revista de la Real Sociedad Estadística. Serie B (Metodológica), 267-288.
Gelman, A., Jakulin, A., Pittau, GM y Su, Y.-S. (2008) Una distribución previa predeterminada débilmente informativa para modelos logísticos y otros modelos de regresión. Los Anales de Estadísticas Aplicadas, 2 (4), 1360-1383.
Norton, RM (1984). La distribución exponencial doble: uso del cálculo para encontrar un estimador de máxima verosimilitud. El estadístico estadounidense, 38 (2): 135-136.
fuente
Vista frecuente 👀
En cierto sentido, podemos pensar en ambas regularizaciones como "reducir los pesos" ; L2 minimiza la norma euclidiana de los pesos, mientras que L1 minimiza la norma de Manhattan. Siguiendo esta línea de pensamiento, podemos razonar que los equipotenciales de L1 y L2 son esféricos y en forma de diamante respectivamente, por lo que es más probable que L1 conduzca a soluciones dispersas, como se ilustra en el Reconocimiento de patrones y el aprendizaje automático de Bishop :
Vista bayesiana 👀
Sin embargo, para comprender cómo se relacionan los antecedentes con el modelo lineal , necesitamos comprender la interpretación bayesiana de la regresión lineal ordinaria . El blog de Katherine Bailey es una excelente lectura para esto. En pocas palabras, asumimos errores de iid normalmente distribuidos en nuestro modelo lineal
Como resultado ... El estimador de máxima verosimilitud es idéntico a minimizar el error al cuadrado entre los valores de salida pronosticados y reales bajo el supuesto de normalidad para el error.
Regularización como priorizar pesas
Si tuviéramos que colocar un previo no uniforme en los pesos de la regresión lineal, la estimación de la probabilidad máxima a posteriori (MAP) sería:
Ahora tenemos otra visión de por qué es más probable que colocar un Laplace antes de los pesos induzca la dispersión: debido a que la distribución de Laplace está más concentrada en torno a cero , es más probable que nuestros pesos sean cero.
fuente