Al entrenar una red neuronal usando el algoritmo de propagación hacia atrás, el método de descenso de gradiente se usa para determinar las actualizaciones de peso. Mi pregunta es: en lugar de utilizar el método de descenso de gradiente para localizar lentamente el punto mínimo con respecto a un cierto peso, ¿por qué no establecemos la derivada , y encuentra el valor de peso que minimiza el error?
Además, ¿por qué estamos seguros de que la función de error en la propagación inversa será mínima? ¿No puede resultar que la función de error es un máximo en su lugar? ¿Existe una propiedad específica de las funciones de aplastamiento que garantice que una red con cualquier número de nodos ocultos con pesos arbitrarios y vectores de entrada siempre dará una función de error que tiene algunos mínimos?
22
Respuestas:
Porque no podemos La superficie de optimización en función de los pesos w no es lineal y no existe una solución de forma cerrada para d S ( w )S( w ) w .reS( w )rew= 0
La pendiente del gradiente, por definición, desciende. Si llega a un punto estacionario después de descender, debe ser un mínimo (local) o un punto de silla, pero nunca un máximo local.
fuente
Con respecto a la respuesta de Marc Claesen, creo que el descenso del gradiente podría detenerse en un máximo local en situaciones en las que se inicializa a un máximo local o simplemente termina allí debido a la mala suerte o un parámetro de velocidad desajustado. El máximo local tendría un gradiente cero y el algoritmo pensaría que había convergido. Es por eso que a menudo ejecuto múltiples iteraciones desde diferentes puntos de partida y hago un seguimiento de los valores en el camino.
fuente
En los métodos de tipo Newton, en cada paso se resuelvere( error )rew= 0
Si uno usa un método de Krylov para la solución de Hesse, y no utiliza un buen preacondicionador para el Hesse, entonces los costos se equilibran aproximadamente: las iteraciones de Newton toman mucho más tiempo pero progresan más, de tal manera que el tiempo total es aproximadamente igual o más lento que el descenso en gradiente. Por otro lado, si uno tiene un buen preacondicionador de Hesse, entonces el método de Newton gana a lo grande.
Dicho esto, los métodos Newton-Krylov de la región de confianza son el estándar de oro en la optimización moderna a gran escala, y solo esperaría que su uso aumente en las redes neuronales en los próximos años, ya que las personas quieren resolver problemas cada vez más grandes. (y también a medida que más personas en optimización numérica se interesan en el aprendizaje automático)
fuente