¿Cómo implementar la regularización L2 hacia un punto arbitrario en el espacio?

11

Aquí hay algo que leí en el libro de Ian Goodfellow Deep Learning .

En el contexto de las redes neuronales, "la penalización de la norma del parámetro L2 se conoce comúnmente como pérdida de peso. Esta estrategia de regularización lleva los pesos más cerca del origen. [...] Más en general, podríamos regularizar los parámetros para estar cerca de cualquier punto específico en el espacio ", pero es mucho más común regularizar los parámetros del modelo hacia cero. (Aprendizaje profundo, Goodfellow et al.)

Tengo curiosidad. Entiendo que simplemente agregando un término de regularización a nuestra función de costos, y que minimizando este costo total J podemos influir en los parámetros del modelo para que permanezcan pequeños:

J(Θ,X,y)=L(Θ,X,y)+λ||w||22

Pero, ¿cómo se implementaría una versión de esta estrategia de regularización que llevaría los parámetros hacia cualquier punto arbitrario? (digamos que queremos que la norma tenga tendencia a 5)

Julepe
fuente

Respuestas:

14

Realmente haces dos preguntas diferentes.

  1. Tener la norma tiende a 5 implica que desea que los pesos estén cerca de la superficie de una hiperesfera centrada en el origen con radio 5. Esta regularización se parece a

J(Θ,X,y)=L(Θ,X,y)+λ(||w||225)2

Pero en su lugar podría usar algo como , supongo.λabs(||w||225)

  1. Por otro lado, si desea tender hacia un punto arbitrario, solo necesita usar ese punto como centro .c

J(Θ,X,y)=L(Θ,X,y)+λ||wc||22
Sycorax dice reinstalar a Mónica
fuente
(+1) Creo que una forma fructífera de pensar sobre la "norma que tiende a cinco" podría ser mediante la elección del parámetro de ajuste en la versión de dada por OP (en lugar de cambiar la función)J
user795305
(He escrito una respuesta breve para aclarar lo que quiero decir con lo anterior. ¡Gracias, por cierto, por aclarar la distinción de las dos preguntas formuladas!)
user795305
Un objetivo común (práctico) al hacer eso es regularizar hacia algún punto operativo conocido, por ejemplo, el modelo anterior que desea reemplazar pero para el que desea una transición "suave"
oDDsKooL
6

DefinaSabemos que , debido a que la penalización tiene el origen como su minimizador.

w^λ=argminwL(Θ,X,y)+λw22.
limλw^λ=0ww22

Sycorax señala que, de manera similar,Esta generalización exitosa puede llevarnos a proponer el estimador donde es una función cuyo minimizador satisface alguna propiedad que buscamos. De hecho, Sycorax toma , donde se minimiza (únicamente) en el origen y, en particular, . Por lo tanto, , según se desee. Desafortunadamente, sin embargo, ambas opciones delimλ{argminwL(Θ,X,y)+λwc22}=c.

w~λ=argminwL(Θ,X,y)+λpen(w),
penpen(w)=g(w225)gg{||,()2}limλw~λ22=5gconducen a sanciones que no son convexas, lo que hace que el estimador sea difícil de calcular.

El análisis anterior parece ser la mejor solución (tal vez hasta la elección de , para lo cual no tengo una mejor sugerencia) si insistimos en como la interpretación única de "tiende a" descrita en la pregunta. Sin embargo, suponiendo que , existe algo de para que el minimizador del problema de OP satisfaga . Por lo tanto, sin necesidad de cambiar la función objetivo. Si no existe tal , entonces el problema de la computacióngλargminwL(Θ,X,y)225Λw^Λw^Λ22=5

limλΛw^λ22=5,
Λargminw:w22=5L(Θ,X,y) es intrínsecamente difícil. De hecho, no hay necesidad de considerar ningún estimador además de cuando se intenta fomentar las propiedades naturales de .w^λw^λ22

(Para imponer que un estimador penalizado alcanza un valor de la penalización que no se logra mediante el estimador no penalizado, me parece muy poco natural. Si alguien conoce algún lugar donde esto sea realmente deseado, ¡por favor comente!)

usuario795305
fuente
1
Esta es una excelente adición. +1
Sycorax dice Reinstate Monica
2

Para apropiado , es posible verlo como probabilidad logarítmica negativa y la regularización apropiada puede verse como probabilidad logarítmica negativa para la distribución previa. Este enfoque se llama Máximo A posteriori (MAP).LJ

Debería ser fácil ver los ejemplos de Sycorax a la luz de MAP.

Para obtener detalles de MAP, puede consultar estas notas . Desde mi experiencia, buscar en Google la "regularización máxima a posteriori" da buenos resultados.

Jakub Bartczuk
fuente