En las notas de la semana 3 de la clase Coursera Machine Learning de Andrew Ng , se agrega un término a la función de costos para implementar la regularización:
Las notas de la conferencia dicen:
También podríamos regularizar todos nuestros parámetros theta en una sola suma:
se aplica más tarde al término de regularización de las redes neuronales :
Recuerde que la función de costo para la regresión logística regularizada fue:
Para las redes neuronales, será un poco más complicado:
- ¿Por qué se usa la mitad constante aquí? ¿Para que se cancele en la derivada ?
- ¿Por qué la división por ejemplos de entrenamiento? ¿Cómo afecta la cantidad de ejemplos de entrenamiento a las cosas?
regularization
Tom Hale
fuente
fuente
Respuestas:
Supongamos que tiene 10 ejemplos y no divide un costo de regularización L2 por el número de ejemplos m . Entonces, un "dominio" del costo de regularización L2 en comparación con un costo de entropía cruzada será como 10: 1, porque cada ejemplo de entrenamiento puede contribuir al costo total proporcionalmente a 1 / m = 1/10.
Si tiene más ejemplos, digamos, 100, entonces el "dominio" del costo de regularización L2 será algo así como 100: 1, por lo que debe disminuir un λ en consecuencia, lo cual es inconveniente. Es mejor tener λ constante independientemente del tamaño del lote.
Actualización: para hacer este argumento más fuerte, creé un cuaderno jupyter .
fuente
La función de pérdida en el conjunto de entrenamiento es generalmente una suma sobre los patrones que comprenden el conjunto de entrenamiento, de modo que a medida que el conjunto de entrenamiento se hace más grande, el primer término escala esencialmente linealmente con . Podemos reducir un poco el rango de búsqueda para un buen valor de si primero dividimos el término de regularización por para compensar la dependencia de de . El 2, por supuesto, está en el denominador para simplificar las derivadas necesarias para el algoritmo de optimización utilizado para determinar la óptima .m λ m J ( θ ) m θJ(θ) m λ m J(θ) m θ
fuente
Me pregunté exactamente lo mismo cuando tomé este curso, y terminé investigando esto un poco. Daré una respuesta breve aquí, pero puedes leer una descripción más detallada en una publicación de blog que escribí sobre ella .
Creo que al menos parte de la razón de esos coeficientes de escala es que la regularización L² probablemente entró en el campo del aprendizaje profundo a través de la introducción del concepto relacionado, pero no idéntico, de la pérdida de peso.
El factor 0.5 está ahí para obtener un buen coeficiente de solo λ para la disminución de peso en el gradiente, y la escala por m ... bueno, hay al menos 5 motivaciones diferentes que he encontrado o se me ocurrió:
grez
demuestra que esto mejora el rendimiento en la práctica.fuente
También estaba confundido acerca de esto, pero luego en una conferencia para profundizar el aprendizaje. Andrew sugiere que esto es solo una constante de escala:
http://www.youtube.com/watch?v=6g0t3Phly2M&t=2m50s
Quizás haya una razón más profunda para usar 1 / 2m, pero sospecho que es simplemente un hiperparámetro.
fuente