Aquí hay algo que leí en el libro de Ian Goodfellow Deep Learning .
En el contexto de las redes neuronales, "la penalización de la norma del parámetro L2 se conoce comúnmente como pérdida de peso. Esta estrategia de regularización lleva los pesos más cerca del origen. [...] Más en general, podríamos regularizar los parámetros para estar cerca de cualquier punto específico en el espacio ", pero es mucho más común regularizar los parámetros del modelo hacia cero. (Aprendizaje profundo, Goodfellow et al.)
Tengo curiosidad. Entiendo que simplemente agregando un término de regularización a nuestra función de costos, y que minimizando este costo total podemos influir en los parámetros del modelo para que permanezcan pequeños:
Pero, ¿cómo se implementaría una versión de esta estrategia de regularización que llevaría los parámetros hacia cualquier punto arbitrario? (digamos que queremos que la norma tenga tendencia a 5)
DefinaSabemos que , debido a que la penalización tiene el origen como su minimizador.
Sycorax señala que, de manera similar,Esta generalización exitosa puede llevarnos a proponer el estimador donde es una función cuyo minimizador satisface alguna propiedad que buscamos. De hecho, Sycorax toma , donde se minimiza (únicamente) en el origen y, en particular, . Por lo tanto, , según se desee. Desafortunadamente, sin embargo, ambas opciones delimλ→∞{argminwL(Θ,X,y)+λ∥w−c∥22}=c.
El análisis anterior parece ser la mejor solución (tal vez hasta la elección de , para lo cual no tengo una mejor sugerencia) si insistimos en como la interpretación única de "tiende a" descrita en la pregunta. Sin embargo, suponiendo que , existe algo de para que el minimizador del problema de OP satisfaga . Por lo tanto, sin necesidad de cambiar la función objetivo. Si no existe tal , entonces el problema de la computacióng λ→∞ ∥argminwL(Θ,X,y)∥22≥5 Λ w^Λ ∥w^Λ∥22=5
(Para imponer que un estimador penalizado alcanza un valor de la penalización que no se logra mediante el estimador no penalizado, me parece muy poco natural. Si alguien conoce algún lugar donde esto sea realmente deseado, ¡por favor comente!)
fuente
Para apropiado , es posible verlo como probabilidad logarítmica negativa y la regularización apropiada puede verse como probabilidad logarítmica negativa para la distribución previa. Este enfoque se llama Máximo A posteriori (MAP).L J
Debería ser fácil ver los ejemplos de Sycorax a la luz de MAP.
Para obtener detalles de MAP, puede consultar estas notas . Desde mi experiencia, buscar en Google la "regularización máxima a posteriori" da buenos resultados.
fuente