En una reciente publicación de blog de Rong Ge, se dijo que:
Se cree que para muchos problemas, incluido el aprendizaje de redes profundas, casi todos los mínimos locales tienen un valor de función muy similar al óptimo global y, por lo tanto, encontrar un mínimo local es lo suficientemente bueno.
¿De dónde viene esta creencia?
Respuestas:
Un artículo reciente The Loss Surfaces of Multilayer Networks ofrece algunas posibles explicaciones para esto. De su resumen (negrita es mía):
Muchas de las personas influyentes en el aprendizaje profundo (Yann LeCunn y Yoshua Bengio, por nombrar algunos) y algunos investigadores que vienen más desde el ángulo matemático (Rong Ge y otros colaboradores de Sanjeev Arora) han estado discutiendo y explorando estas ideas.
En el documento mencionado anteriormente, vea la Figura 3, que muestra un fenómeno de bandas / concentración de los valores mínimos locales ya que las redes tienen más unidades ocultas. La banda / concentración representa alguna evidencia empírica de que para modelos más profundos o más grandes, un mínimo local es "suficientemente bueno", ya que sus valores de pérdida son más o menos similares. Y lo más importante, tienen una pérdida que está más cerca del mínimo global a medida que el modelo se vuelve más complejo (en este caso más amplio, pero en la práctica, más profundo).
Además, usan un modelo de vidrio giratorio, que incluso afirman que es solo un modelo y no necesariamente indicativo de la imagen real, para mostrar que alcanzar el minimizador global desde un mínimo local puede tomar exponencialmente largo:
La investigación de Rong Ge se centra en romper los puntos de silla. Yoshua Bengio y sus colaboradores han planteado una hipótesis bastante audaz de Saddle Point:
fuente aquí: Identificar y atacar el problema del punto de silla en la optimización no convexa de alta dimensión.
Hasta cierto punto, los dos enfoques anteriores no son exactamente los mismos (la hipótesis de Saddle Point podría cuestionar qué es realmente un mínimo local y qué es simplemente un punto de silla mal condicionado con una región de meseta muy larga). La idea detrás de la hipótesis de Saddle Point es que es posible diseñar métodos de optimización para romper los puntos de silla de montar, por ejemplo, Saddle-Free Newton del artículo de Bengio, para acelerar potencialmente la convergencia y tal vez incluso alcanzar el óptimo global. El primer artículo de Multicayer Loss Surface no está realmente preocupado por alcanzar el óptimo global y en realidad cree que tiene algunas propiedades de sobreajuste pobres. Curiosamente, ambos artículos utilizan ideas de física estadística y modelos de vidrio giratorio.
Pero están algo relacionados en que ambos artículos creen que para alcanzar el minimizador global, uno debe superar el desafío de optimización de los puntos de silla de montar. El primer artículo simplemente cree que los mínimos locales son lo suficientemente buenos.
Es justo preguntarse si los métodos de impulso y otros nuevos algoritmos de optimización, que pueden estimar algunas propiedades de curvatura de segundo orden, pueden escapar de los puntos de silla. Una famosa animación de Alec Radford aquí .
Para responder a su pregunta: "¿De dónde viene esta creencia?" Personalmente, creo que proviene del hecho de que es posible usar diferentes semillas al azar para aprender diferentes pesos, pero las redes correspondientes tienen un rendimiento cuantitativo similar. Por ejemplo, si establece dos semillas aleatorias diferentes para la inicialización de peso Glorot, probablemente aprenderá diferentes pesos, pero si entrena utilizando métodos de optimización similares, las redes tendrán un rendimiento similar. Una creencia común del folklore es que el panorama de optimización es similar al de un cartón de huevos, otra buena publicación de blog aquí: ¿ No más mínimos locales? con la analogía del cartón de huevos.
Editar: solo quería dejar en claro que la analogía del cartón de huevos no es cierta, de lo contrario no habría necesidad de impulso u otras técnicas de optimización más avanzadas. Pero se sabe que SGD no funciona tan bien como SGD + Momentum o algoritmos de optimización más modernos, quizás debido a la existencia de puntos de silla de montar.
fuente