El parámetro de velocidad de aprendizaje ( ) en Gradient Boosting reduce la contribución de cada nuevo modelo base, típicamente un árbol poco profundo, que se agrega en la serie. Se demostró que aumenta drásticamente la precisión del conjunto de pruebas, lo cual es comprensible ya que con pasos más pequeños, el mínimo de la función de pérdida se puede lograr con mayor precisión.
No entiendo por qué la tasa de aprendizaje se considera un parámetro de regularización . Citando los elementos del aprendizaje estadístico , sección 10.12.1, p.364:
Controlar el número de árboles no es la única estrategia de regularización posible. Al igual que con la regresión de crestas y las redes neuronales, también se pueden emplear técnicas de contracción. Los valores más pequeños de resultado (más encogimiento) en mayor riesgo de formación para el mismo número de iteraciones M . Por lo tanto, ν y M controlan el riesgo de predicción en los datos de entrenamiento.
La regularización significa "forma de evitar el sobreajuste", por lo que está claro que el número de iteraciones es crucial a ese respecto (una M que es demasiado alta conduce a un sobreajuste). Pero:
Los valores más pequeños de resultado (más encogimiento) en mayor riesgo de formación para el mismo número de iteraciones M .
solo significa que con bajas tasas de aprendizaje, se necesitan más iteraciones para lograr la misma precisión en el conjunto de entrenamiento. Entonces, ¿cómo se relaciona eso con el sobreajuste?
This is why small learning rate is sort of equal to "more regularizations"
. Según este documento, cuanto mayor es la tasa de aprendizaje, mayor es la regularización: Superconvergencia: Entrenamiento muy rápido de redes neuronales usando grandes tasas de aprendizajeCon el método de Newton, actualiza sus parámetros restando el gradiente de la pérdida dividido por la curvatura de la pérdida. En la optimización de descenso de gradiente, actualiza sus parámetros restando el gradiente de las pérdidas por la tasa de aprendizaje. En otras palabras, el recíproco de la tasa de aprendizaje se usa en lugar de la curvatura de pérdida real.
Definamos la pérdida del problema como la pérdida que define qué es un buen modelo versus uno malo. Es la verdadera pérdida. Definamos la pérdida optimizada como lo que realmente se minimiza con sus reglas de actualización.
Por definición, un parámetro de regularización es cualquier término que se encuentra en la pérdida optimizada, pero no la pérdida del problema. Dado que la tasa de aprendizaje está actuando como un término cuadrático adicional en la pérdida optimizada, pero no tiene nada que ver con la pérdida del problema, es un parámetro de regularización.
Otros ejemplos de regularización que justifican esta perspectiva son:
fuente
In other words, the reciprocal of the learning rate is used in place of the real loss curvature
. - No soy un experto en el campo y es la primera vez que veo la definición:a regularization parameter is any term that is in the optimized loss, but not the problem loss
. Yo tampoco lo entiendo. ¿Podría por favor proporcionar una referencia relevante? Gracias de antemano