Escuché a Andrew Ng (en un video que desafortunadamente ya no puedo encontrar) hablar sobre cómo la comprensión de los mínimos locales en problemas de aprendizaje profundo ha cambiado en el sentido de que ahora se consideran menos problemáticos porque en espacios de alta dimensión (encontrados en aprendizaje profundo) es más probable que los puntos críticos sean puntos de silla de montar o mesetas en lugar de mínimos locales.
He visto documentos (por ejemplo, este ) que discuten supuestos bajo los cuales "cada mínimo local es un mínimo global". Estos supuestos son bastante técnicos, pero por lo que entiendo, tienden a imponer una estructura en la red neuronal que la hace algo lineal.
¿Es una afirmación válida que, en el aprendizaje profundo (incl. Arquitecturas no lineales), las mesetas son más probables que los mínimos locales? Y si es así, ¿hay una intuición (posiblemente matemática) detrás de esto?
¿Hay algo en particular sobre el aprendizaje profundo y los puntos de silla?
Respuestas:
Esto simplemente está tratando de transmitir mi intuición, es decir, sin rigor. Lo que pasa con los puntos de silla es que son un tipo óptimo que combina una combinación de mínimos y máximos. Debido a que el número de dimensiones es tan grande con el aprendizaje profundo, la probabilidad de que un óptimo solo consista en una combinación de mínimos es muy baja. Esto significa que 'quedarse atascado' en un mínimo local es raro. A riesgo de simplificar demasiado, es más difícil 'quedar atrapado' en un punto de silla de montar porque puede 'deslizarse hacia abajo una de las dimensiones'. Creo que el video de Andrew Ng al que te refieres proviene del curso Coursera sobre Deep Learning de él.
fuente
¿Pero qué hay de maxima?
fuente