Entendiendo que "casi todos los mínimos locales tienen un valor de función muy similar al óptimo global"

46

En una reciente publicación de blog de Rong Ge, se dijo que:

Se cree que para muchos problemas, incluido el aprendizaje de redes profundas, casi todos los mínimos locales tienen un valor de función muy similar al óptimo global y, por lo tanto, encontrar un mínimo local es lo suficientemente bueno.

¿De dónde viene esta creencia?

John Donn
fuente
15
Me sorprendería si este no es un hallazgo empírico.
usεr11852 dice Reinstate Monic

Respuestas:

69

Un artículo reciente The Loss Surfaces of Multilayer Networks ofrece algunas posibles explicaciones para esto. De su resumen (negrita es mía):

"Conjeturamos que tanto el recocido simulado como el SGD convergen en la banda de puntos críticos bajos, y que todos los puntos críticos que se encuentran allí son mínimos locales de alta calidad medidos por el error de prueba. Esto enfatiza una diferencia importante entre redes grandes y pequeñas. donde para estos últimos los mínimos locales de baja calidad tienen una probabilidad distinta de cero de ser recuperados. Finalmente, demostramos que recuperar el mínimo global se vuelve más difícil a medida que aumenta el tamaño de la red y que en la práctica es irrelevante ya que el mínimo global a menudo conduce a un sobreajuste ".

Muchas de las personas influyentes en el aprendizaje profundo (Yann LeCunn y Yoshua Bengio, por nombrar algunos) y algunos investigadores que vienen más desde el ángulo matemático (Rong Ge y otros colaboradores de Sanjeev Arora) han estado discutiendo y explorando estas ideas.

En el documento mencionado anteriormente, vea la Figura 3, que muestra un fenómeno de bandas / concentración de los valores mínimos locales ya que las redes tienen más unidades ocultas. La banda / concentración representa alguna evidencia empírica de que para modelos más profundos o más grandes, un mínimo local es "suficientemente bueno", ya que sus valores de pérdida son más o menos similares. Y lo más importante, tienen una pérdida que está más cerca del mínimo global a medida que el modelo se vuelve más complejo (en este caso más amplio, pero en la práctica, más profundo).

Además, usan un modelo de vidrio giratorio, que incluso afirman que es solo un modelo y no necesariamente indicativo de la imagen real, para mostrar que alcanzar el minimizador global desde un mínimo local puede tomar exponencialmente largo:

"Para encontrar un mínimo más bajo, debemos pasar a través de un punto de silla de montar. Por lo tanto, debemos subir al menos al nivel donde haya una cantidad igual de puntos de silla de montar para tener una oportunidad decente de encontrar un camino que posiblemente pueda tomar a otro mínimo local. Este proceso lleva un tiempo exponencialmente largo, por lo que en la práctica no es factible encontrar el mínimo global ".

La investigación de Rong Ge se centra en romper los puntos de silla. Yoshua Bengio y sus colaboradores han planteado una hipótesis bastante audaz de Saddle Point:

Aquí argumentamos, en base a los resultados de la física estadística, la teoría de matrices aleatorias, la teoría de redes neuronales y la evidencia empírica, que una dificultad cada vez más profunda se origina en la proliferación de puntos de silla, no mínimos locales, especialmente en problemas de alta dimensión de interés práctico. . Dichos puntos de silla están rodeados de mesetas de alto error que pueden ralentizar drásticamente el aprendizaje y dar la impresión ilusoria de la existencia de un mínimo local.

fuente aquí: Identificar y atacar el problema del punto de silla en la optimización no convexa de alta dimensión.

Hasta cierto punto, los dos enfoques anteriores no son exactamente los mismos (la hipótesis de Saddle Point podría cuestionar qué es realmente un mínimo local y qué es simplemente un punto de silla mal condicionado con una región de meseta muy larga). La idea detrás de la hipótesis de Saddle Point es que es posible diseñar métodos de optimización para romper los puntos de silla de montar, por ejemplo, Saddle-Free Newton del artículo de Bengio, para acelerar potencialmente la convergencia y tal vez incluso alcanzar el óptimo global. El primer artículo de Multicayer Loss Surface no está realmente preocupado por alcanzar el óptimo global y en realidad cree que tiene algunas propiedades de sobreajuste pobres. Curiosamente, ambos artículos utilizan ideas de física estadística y modelos de vidrio giratorio.

Pero están algo relacionados en que ambos artículos creen que para alcanzar el minimizador global, uno debe superar el desafío de optimización de los puntos de silla de montar. El primer artículo simplemente cree que los mínimos locales son lo suficientemente buenos.

Es justo preguntarse si los métodos de impulso y otros nuevos algoritmos de optimización, que pueden estimar algunas propiedades de curvatura de segundo orden, pueden escapar de los puntos de silla. Una famosa animación de Alec Radford aquí .

Para responder a su pregunta: "¿De dónde viene esta creencia?" Personalmente, creo que proviene del hecho de que es posible usar diferentes semillas al azar para aprender diferentes pesos, pero las redes correspondientes tienen un rendimiento cuantitativo similar. Por ejemplo, si establece dos semillas aleatorias diferentes para la inicialización de peso Glorot, probablemente aprenderá diferentes pesos, pero si entrena utilizando métodos de optimización similares, las redes tendrán un rendimiento similar. Una creencia común del folklore es que el panorama de optimización es similar al de un cartón de huevos, otra buena publicación de blog aquí: ¿ No más mínimos locales? con la analogía del cartón de huevos.

Editar: solo quería dejar en claro que la analogía del cartón de huevos no es cierta, de lo contrario no habría necesidad de impulso u otras técnicas de optimización más avanzadas. Pero se sabe que SGD no funciona tan bien como SGD + Momentum o algoritmos de optimización más modernos, quizás debido a la existencia de puntos de silla de montar.

AI independiente
fuente
14
+1 Una respuesta impresionantemente informativa y autorizada: en solo unos pocos párrafos fáciles de entender, parece capturar las ideas y las direcciones actuales dentro de un subcampo significativo.
whuber
Gracias por su respuesta. Ya que ha mencionado a Yann LeCun, ¿podría señalar una referencia particular de él que discuta estas o ideas similares?
John Donn
2
Hola John: Yann es coautor del artículo sobre la superficie de pérdida de redes multicapa al que hice referencia en la publicación. Otro artículo similar que Yann es coautor es Exploraciones en paisajes de alta dimensión . Los dos artículos son bastante similares, el que hice referencia originalmente parece ser más popular.
Indie AI
El enlace "No más mínimos locales" está muerto. A través de una búsqueda rápida en Google, no pude encontrar la publicación de blog a la que hace referencia. ¿La publicación del blog está fuera de línea? O simplemente se mudó?
LMB