¿Puede ocurrir un sobreajuste en los algoritmos de optimización avanzada?

8

Mientras tomaba un curso en línea sobre aprendizaje automático por Andrew Ng en Coursera, me encontré con un tema llamado sobreajuste . Sé que puede ocurrir cuando se usa el descenso de gradiente en una regresión lineal o logística, pero ¿puede ocurrir cuando se usan algoritmos de optimización avanzada como "Gradiente conjugado", "BFGS" y "L-BFGS"?

Saksham
fuente

Respuestas:

11

No existe una técnica que elimine el riesgo de sobreajuste por completo. Los métodos que ha enumerado son todas formas diferentes de ajustar un modelo lineal. Un modelo lineal tendrá un mínimo global, y ese mínimo no debería cambiar independientemente del sabor del descenso de gradiente que esté utilizando (a menos que esté utilizando la regularización), por lo que todos los métodos que ha enumerado se ajustarían (o underfit) igualmente.

Pasar de modelos lineales a modelos más complejos, como el aprendizaje profundo, tiene aún más riesgo de ver un sobreajuste. He tenido muchas redes neuronales enrevesadas que se sobreajustan gravemente, aunque se supone que la convolución reduce la posibilidad de sobreajustar sustancialmente al compartir pesos. En resumen, no hay una bala de plata para el sobreajuste, independientemente de la familia de modelos o la técnica de optimización.

Ryan Zotti
fuente