¿Cómo implementar la regularización L2 hacia un punto arbitrario en el espacio?

11

Aquí hay algo que leí en el libro de Ian Goodfellow Deep Learning .

En el contexto de las redes neuronales, "la penalización de la norma del parámetro L2 se conoce comúnmente como pérdida de peso. Esta estrategia de regularización lleva los pesos más cerca del origen. [...] Más en general, podríamos regularizar los parámetros para estar cerca de cualquier punto específico en el espacio ", pero es mucho más común regularizar los parámetros del modelo hacia cero. (Aprendizaje profundo, Goodfellow et al.)

Tengo curiosidad. Entiendo que simplemente agregando un término de regularización a nuestra función de costos, y que minimizando este costo total $J$ podemos influir en los parámetros del modelo para que permanezcan pequeños:

J (Θ, X, y) = L (Θ, X, y) + λ | | w | |_{2}^{2}

$J(\boldsymbol{\Theta}, \boldsymbol{X}, \boldsymbol{y}) = L(\boldsymbol{\Theta}, \boldsymbol{X}, \boldsymbol{y}) + \lambda||\boldsymbol{w}||_{2}^{2}$

Pero, ¿cómo se implementaría una versión de esta estrategia de regularización que llevaría los parámetros hacia cualquier punto arbitrario? (digamos que queremos que la norma tenga tendencia a 5)

machine-learning neural-networks deep-learning regularization Julepe
fuente

14

Realmente haces dos preguntas diferentes.

Tener la norma tiende a 5 implica que desea que los pesos estén cerca de la superficie de una hiperesfera centrada en el origen con radio 5. Esta regularización se parece a

J (Θ, X, y) = L (Θ, X, y) + λ (| | w | |_{2}^{2} - 5)^{2}

$J(\Theta, X, y) = L(\Theta, X, y) + \lambda (||w||_2^2-5)^2$

Pero en su lugar podría usar algo como , supongo. $\lambda \cdot\text{abs}(||w||_2^2-5)$

Por otro lado, si desea tender hacia un punto arbitrario, solo necesita usar ese punto como centro . $c$

J (Θ, X, y) = L (Θ, X, y) + λ | | w - c | |_{2}^{2}

$J(\Theta, X, y) = L(\Theta, X, y) + \lambda ||w-c||_2^2$

Sycorax dice reinstalar a Mónica
fuente

(+1) Creo que una forma fructífera de pensar sobre la "norma que tiende a cinco" podría ser mediante la elección del parámetro de ajuste en la versión de dada por OP (en lugar de cambiar la función)

J

$J$

user795305

(He escrito una respuesta breve para aclarar lo que quiero decir con lo anterior. ¡Gracias, por cierto, por aclarar la distinción de las dos preguntas formuladas!)

user795305

Un objetivo común (práctico) al hacer eso es regularizar hacia algún punto operativo conocido, por ejemplo, el modelo anterior que desea reemplazar pero para el que desea una transición "suave"

oDDsKooL

6

DefinaSabemos que , debido a que la penalización tiene el origen como su minimizador.

{\hat{w}}_{λ} = \arg min_{w} L (Θ, X, y) + λ ‖ w ‖_{2}^{2} .

$\hat w_\lambda = \arg\min_w L(\Theta, X, y) + \lambda \|w\|_2^2.$

lim_{λ \to \infty} {\hat{w}}_{λ} = 0

$\lim_{\lambda \to \infty} \hat w_\lambda = 0$

w \mapsto ‖ w ‖_{2}^{2}

$w \mapsto \|w\|_2^2$

Sycorax señala que, de manera similar,Esta generalización exitosa puede llevarnos a proponer el estimador donde es una función cuyo minimizador satisface alguna propiedad que buscamos. De hecho, Sycorax toma , donde se minimiza (únicamente) en el origen y, en particular, . Por lo tanto, , según se desee. Desafortunadamente, sin embargo, ambas opciones de $\lim_{\lambda \to \infty} \left\{ \arg\min_w L(\Theta, X, y) + \lambda \|w-c\|_2^2 \right\} = c.$

{\tilde{w}}_{λ} = \arg min_{w} L (Θ, X, y) + λ p e n (w),

$\tilde w_\lambda = \arg\min_w L(\Theta, X, y) + \lambda \mathrm{pen}(w),$

p e n

$\mathrm{pen}$

p e n (w) = g (‖ w ‖_{2}^{2} - 5)

$\mathrm{pen}(w) = g(\|w\|_2^2 - 5)$

g

$g$

g \in {| \cdot |, (\cdot)^{2}}

$g \in \{|\cdot|, \, (\cdot)^2\}$

lim_{λ \to \infty} ‖ {\tilde{w}}_{λ} ‖_{2}^{2} = 5

$\lim_{\lambda \to \infty} \|\tilde w_\lambda \|_2^2 = 5$

g

$g$ conducen a sanciones que no son convexas, lo que hace que el estimador sea difícil de calcular.

El análisis anterior parece ser la mejor solución (tal vez hasta la elección de , para lo cual no tengo una mejor sugerencia) si insistimos en como la interpretación única de "tiende a" descrita en la pregunta. Sin embargo, suponiendo que , existe algo de para que el minimizador del problema de OP satisfaga . Por lo tanto, sin necesidad de cambiar la función objetivo. Si no existe tal , entonces el problema de la computación $g$ $\lambda \to \infty$ $\|\arg\min_w L(\Theta, X, y) \|_2^2 \geq 5$ $\Lambda$ $\hat w_\Lambda$ $\|\hat w_\Lambda\|_2^2 = 5$

lim_{λ \to Λ} {‖ {\hat{w}}_{λ} ‖}_{2}^{2} = 5,

$\lim_{\lambda \to \Lambda} \left\| \hat w_\lambda \right\|_2^2 = 5,$

Λ

$\Lambda$

\arg min_{w : ‖ w ‖_{2}^{2} = 5} L (Θ, X, y)

$\arg\min_{w : \|w\|_2^2 = 5} L(\Theta, X, y)$ es intrínsecamente difícil. De hecho, no hay necesidad de considerar ningún estimador además de cuando se intenta fomentar las propiedades naturales de .

{\hat{w}}_{λ}

$\hat w_\lambda$

‖ {\hat{w}}_{λ} ‖_{2}^{2}

$\|\hat w_\lambda\|_2^2$

(Para imponer que un estimador penalizado alcanza un valor de la penalización que no se logra mediante el estimador no penalizado, me parece muy poco natural. Si alguien conoce algún lugar donde esto sea realmente deseado, ¡por favor comente!)

usuario795305
fuente

1

Esta es una excelente adición. +1

Sycorax dice Reinstate Monica

2

Para apropiado , es posible verlo como probabilidad logarítmica negativa y la regularización apropiada puede verse como probabilidad logarítmica negativa para la distribución previa. Este enfoque se llama Máximo A posteriori (MAP). $L$ $J$

Debería ser fácil ver los ejemplos de Sycorax a la luz de MAP.

Para obtener detalles de MAP, puede consultar estas notas . Desde mi experiencia, buscar en Google la "regularización máxima a posteriori" da buenos resultados.

Jakub Bartczuk
fuente

¿Cómo implementar la regularización L2 hacia un punto arbitrario en el espacio?

Respuestas: