¿Por qué Laplace produce soluciones dispersas antes?

22

Estaba revisando la literatura sobre regularización, y a menudo veo párrafos que vinculan la regulación de L2 con Gaussian anterior, y L1 con Laplace centrada en cero.

Sé cómo se ven estos anteriores, pero no entiendo cómo se traduce, por ejemplo, a los pesos en el modelo lineal. En L1, si entiendo correctamente, esperamos soluciones dispersas, es decir, algunos pesos se llevarán exactamente a cero. Y en L2 tenemos pesos pequeños pero no pesos cero.

¿Pero por qué sucede?

Comente si necesito proporcionar más información o aclarar mi camino de pensamiento.

Dmitry Smirnov
fuente
1
Una explicación intuitiva realmente simple es que la penalización disminuye cuando se usa una norma L2 pero no cuando se usa una norma L1. Entonces, si puede mantener la parte del modelo de la función de pérdida aproximadamente igual y puede hacerlo disminuyendo una de dos variables, es mejor disminuir la variable con un valor absoluto alto en el caso L2 pero no en el caso L1.
testuser

Respuestas:

21

La relación de la distribución de Laplace anterior con la mediana (o la norma L1) fue encontrada por el propio Laplace, quien descubrió que utilizando dicha distribución anterior se estima la mediana en lugar de la media como con la distribución Normal (ver Stingler, 1986 o Wikipedia ). Esto significa que la regresión con la distribución de errores de Laplace estima la mediana (como, por ejemplo, la regresión cuantil), mientras que los errores normales se refieren a la estimación de OLS.

Tibshirani (1996) también describió los robustos antecedentes sobre los que preguntó, y notó que la regresión robusta de Lasso en el entorno bayesiano es equivalente a usar Laplace antes. Tales coeficientes anteriores para se centran alrededor de cero (con variables centradas) y tienen colas anchas, por lo que la mayoría de los coeficientes de regresión estimados al usarlo terminan siendo exactamente cero. Esto está claro si observa de cerca la imagen a continuación, la distribución de Laplace tiene un pico alrededor de cero (hay una mayor masa de distribución), mientras que la distribución Normal es más difusa alrededor de cero, por lo que los valores distintos de cero tienen una mayor masa de probabilidad. Otras posibilidades para anteriores robustas son las distribuciones Cauchy o .t

Usando tales anteriores, es más propenso a terminar con muchos coeficientes de valor cero, algunos de tamaño moderado y otros de gran tamaño (cola larga), mientras que con Normal anterior obtiene coeficientes de tamaño más moderado que no son exactamente cero, pero Tampoco tan lejos de cero.

ingrese la descripción de la imagen aquí

(fuente de la imagen Tibshirani, 1996)


Stigler, SM (1986). La historia de la estadística: la medición de la incertidumbre antes de 1900. Cambridge, MA: Belknap Press de Harvard University Press.

Tibshirani, R. (1996). Contracción de la regresión y selección a través del lazo. Revista de la Real Sociedad Estadística. Serie B (Metodológica), 267-288.

Gelman, A., Jakulin, A., Pittau, GM y Su, Y.-S. (2008) Una distribución previa predeterminada débilmente informativa para modelos logísticos y otros modelos de regresión. Los Anales de Estadísticas Aplicadas, 2 (4), 1360-1383.

Norton, RM (1984). La distribución exponencial doble: uso del cálculo para encontrar un estimador de máxima verosimilitud. El estadístico estadounidense, 38 (2): 135-136.

Tim
fuente
Wow, esta es una muy buena explicación, y también un agradecimiento especial por la pregunta vinculada donde las normas de regularización están intuitivamente vinculadas al modo, meadian y mean, ¡esto realmente me aclara mucho!
Dmitry Smirnov
1
@Tim, la distribución Cauchy tiene cola pesada, pero la probabilidad de cero es menor que la distribución normal. Entonces, ¿cómo es que induce una solución escasa?
Royi el
4

Vista frecuente 👀

En cierto sentido, podemos pensar en ambas regularizaciones como "reducir los pesos" ; L2 minimiza la norma euclidiana de los pesos, mientras que L1 minimiza la norma de Manhattan. Siguiendo esta línea de pensamiento, podemos razonar que los equipotenciales de L1 y L2 son esféricos y en forma de diamante respectivamente, por lo que es más probable que L1 conduzca a soluciones dispersas, como se ilustra en el Reconocimiento de patrones y el aprendizaje automático de Bishop :

Bishop's * Pattern Recognition and Machine Learning *

Vista bayesiana 👀

Sin embargo, para comprender cómo se relacionan los antecedentes con el modelo lineal , necesitamos comprender la interpretación bayesiana de la regresión lineal ordinaria . El blog de Katherine Bailey es una excelente lectura para esto. En pocas palabras, asumimos errores de iid normalmente distribuidos en nuestro modelo lineal

y=θX+ϵ

norteyyo,yo=1,2,...,norteϵknorte(0 0,σ)

y

pags(yEl |X,θ;ϵ)=norte(θX,σ)

Como resultado ... El estimador de máxima verosimilitud es idéntico a minimizar el error al cuadrado entre los valores de salida pronosticados y reales bajo el supuesto de normalidad para el error.

θ^MLE=argmaxθIniciar sesiónPAGS(yEl |θ)=argminθyo=1norte(yyo-θXyo)2

Regularización como priorizar pesas

Si tuviéramos que colocar un previo no uniforme en los pesos de la regresión lineal, la estimación de la probabilidad máxima a posteriori (MAP) sería:

θ^MAPA=argmaxθIniciar sesiónPAGS(yEl |θ)+Iniciar sesiónPAGS(θ)

PAGS(θ)θ

PAGS(θ)θ

Laplace vs Gauss

Ahora tenemos otra visión de por qué es más probable que colocar un Laplace antes de los pesos induzca la dispersión: debido a que la distribución de Laplace está más concentrada en torno a cero , es más probable que nuestros pesos sean cero.

Christabella Irwanto
fuente