¿Qué tipo de respuesta quiere TCS a la pregunta "¿Por qué las redes neuronales funcionan tan bien?"

52

Mi doctorado es pura matemática, y admito que no sé mucho (es decir, nada) sobre CS teórica. Sin embargo, he comenzado a explorar opciones no académicas para mi carrera y al presentarme al aprendizaje automático, me topé con declaraciones como "Nadie entiende por qué las redes neuronales funcionan bien", lo que me pareció interesante.

Mi pregunta, esencialmente, es ¿qué tipo de respuestas quieren los investigadores? Esto es lo que he encontrado en mi breve búsqueda sobre el tema:

  • Los algoritmos que implementan redes neuronales simples son bastante sencillos.
  • El proceso de SGD se entiende matemáticamente bien, como lo es la teoría estadística.
  • El teorema de aproximación universal es poderoso y probado.
  • Hay un buen artículo reciente https://arxiv.org/abs/1608.08225 que esencialmente da la respuesta de que la aproximación universal es mucho más de lo que realmente necesitamos en la práctica porque podemos hacer suposiciones simplificadoras sobre las funciones que estamos tratando de modelar con red neuronal

En el documento antes mencionado, afirman (parafraseando) "los algoritmos GOFAI se entienden completamente analíticamente, pero muchos algoritmos ANN solo se entienden heurísticamente". Los teoremas de convergencia para los algoritmos implementados son un ejemplo de comprensión analítica que parece que TENEMOS acerca de las redes neuronales, por lo que una declaración en este nivel de generalidad no me dice mucho sobre lo que se conoce frente a lo desconocido o lo que se consideraría "una respuesta ".

Los autores sugieren en la conclusión que preguntas como límites efectivos en el tamaño de la red neuronal necesaria para aproximar un polinomio dado son abiertas e interesantes. ¿Cuáles son otros ejemplos de preguntas analíticas matemáticas específicas que deberían ser respondidas para decir que "entendemos" las redes neuronales? ¿Hay preguntas que puedan responderse en un lenguaje matemático más puro?

(Estoy pensando específicamente en métodos de teoría de la representación debido al uso de la física en este artículo, y, egoístamente, porque es mi campo de estudio. Sin embargo, también puedo imaginar áreas como la teoría combinatoria / gráfica, la geometría algebraica y topología que proporciona herramientas viables).

Neuling
fuente
3
¿GOFAI es realmente tan bien entendido? Una gran cantidad de GOFAI parece reducirse a la resolución SAT, el problema arquetípico de NP completo. Los solucionadores de SAT modernos funcionan notablemente bien en la práctica, aunque no deberían de acuerdo con la teoría existente. ¿Por qué?
Martin Berger
realmente hay un aprendizaje / cambio / historia de aprendizaje previo y profundo en esta área y es un cambio de paradigma importante en el campo. el aprendizaje profundo despegó solo en la última media década. La respuesta simple es que las redes neuronales pueden representar funciones arbitrariamente complejas y que la complejidad está ahora en niveles muy avanzados con redes neuronales profundas. Otra respuesta es que los problemas que se estudian, y tal vez incluso la "realidad en general", se "construyen a partir de características" y los ANN ahora son expertos en aprender características muy complejas.
vzn
No creo que la gente realmente esté buscando "una respuesta" aquí. Buscan usar redes neuronales para resolver problemas, y si el problema se resuelve, entonces está bien. Saber cómo las redes llegaron a esa solución no es necesariamente de interés aquí. A nadie le importa mucho si se trata de un cuadro negro / opaco, siempre que resuelva el problema.
xji

Respuestas:

38

Hay un montón de teoremas de "no almuerzo gratis" en el aprendizaje automático, que indican aproximadamente que no puede haber un algoritmo de aprendizaje maestro que funcione uniformemente mejor que todos los demás algoritmos (ver, por ejemplo, aquí http: //www.no-free- lunch.org/ ). Efectivamente, el aprendizaje profundo puede "romperse" sin mucha dificultad: http://www.evolvingai.org/fooling

Por lo tanto, para ser demostrablemente efectivo, un alumno necesita un sesgo inductivo , es decir, algunos supuestos previos sobre los datos. Los ejemplos de sesgo inductivo incluyen suposiciones de escasez de datos o baja dimensionalidad, o que la distribución se factoriza muy bien, o tiene un gran margen, etc. Varios algoritmos de aprendizaje exitosos explotan estos supuestos para probar las garantías de generalización. Por ejemplo, SVM (lineal) funciona bien cuando los datos están bien separados en el espacio; de lo contrario, no tanto.

Creo que el principal desafío con el aprendizaje profundo es comprender cuál es su sesgo inductivo. En otras palabras, es para probar teoremas del tipo: si los datos de entrenamiento satisfacen estos supuestos, entonces puedo garantizar algo sobre el rendimiento de generalización. (De lo contrario, todas las apuestas están apagadas).

2

Aria
fuente
Cabe señalar que los ejemplos adversos no son exclusivos de las redes neuronales profundas. También se pueden construir fácilmente para la regresión lineal y logística, por ejemplo: arxiv.org/pdf/1412.6572.pdf
Lenar Hoyt
1
Sí, pero la regresión lineal y logística se entiende mucho mejor en teoría.
Aryeh
2
Quizás también deba tenerse en cuenta que los teoremas de la NFL podrían no desempeñar un papel importante en el aprendizaje automático práctico porque, si bien la NFL se ocupa de la clase de todas las funciones, los problemas del mundo real generalmente se limitan a, por ejemplo, funciones suaves o incluso funciones más específicas como el los considerados en el artículo por Lin y Tegmark. Podría ser posible encontrar sesgos inductivos que cubran todos los problemas de aprendizaje que nos interesan.
Lenar Hoyt
44
Entonces, primero deberíamos formalizar este espacio de "todos los problemas de aprendizaje que nos interesan".
Aryeh
1
Eso definitivamente parece valioso, especialmente con respecto a la seguridad de la IA. Necesitamos poder especificar de manera confiable lo que se supone que debe aprender un algoritmo de aprendizaje automático.
Lenar Hoyt
26

Hay dos lagunas principales en nuestra comprensión de las redes neuronales: dureza de optimización y rendimiento de generalización.

Entrenar una red neuronal requiere resolver un problema de optimización altamente no convexo en grandes dimensiones. Los algoritmos de entrenamiento actuales se basan en el descenso de gradiente, lo que solo garantiza la convergencia a un punto crítico (mínimo local o silla de montar). De hecho, Anandkumar & Ge 2016 demostró recientemente que encontrar incluso un mínimo local es NP-duro, lo que significa que (suponiendo que P! = NP) existan puntos "malos", difíciles de escapar, en la superficie de error.
Sin embargo, estos algoritmos de entrenamiento son empíricamente efectivos para muchos problemas prácticos, y no sabemos por qué.
Ha habido trabajos teóricos como Choromanska et al. 2016 y Kawaguchi 2016que prueban que, bajo ciertos supuestos, los mínimos locales son esencialmente tan buenos como los mínimos globales, pero los supuestos que hacen son algo poco realistas y no abordan el problema de los puntos débiles.

La otra brecha principal en nuestra comprensión es el rendimiento de generalización: ¿qué tan bien se desempeña el modelo en ejemplos novedosos no vistos durante el entrenamiento? Es fácil demostrar que en el límite de un número infinito de ejemplos de entrenamiento (muestreados en una distribución estacionaria), el error de entrenamiento converge con el error esperado en ejemplos nuevos (siempre que pueda entrenar al óptimo global), pero dado que no tenemos infinitos ejemplos de entrenamiento, estamos interesados ​​en cuántos ejemplos son necesarios para lograr una diferencia dada entre el entrenamiento y el error de generalización. La teoría del aprendizaje estadístico estudia estos límites de generalización.
Empíricamente, entrenar una gran red neuronal moderna requiere una gran cantidad de ejemplos de entrenamiento (Big Data, si te gustan las palabras de moda), pero no es tan grande como para ser prácticamente inviable. Pero si aplica los límites más conocidos de la teoría del aprendizaje estadístico (por ejemplo, Gao y Zhou 2014 ), generalmente obtiene estos números incalculables. Por lo tanto, estos límites están muy lejos de ser apretados, al menos para problemas prácticos.
Una de las razones podría ser que estos límites tienden a asumir muy poco acerca de la distribución de generación de datos, por lo tanto, reflejan el peor desempeño en entornos adversos, mientras que los entornos "naturales" tienden a ser más "aprendebles".
Es posible escribir límites de generalización dependientes de la distribución, pero no sabemos cómo caracterizar formalmente una distribución en entornos "naturales". Enfoques como la teoría de la información algorítmica siguen siendo insatisfactorios.
Por lo tanto, todavía no sabemos por qué las redes neuronales se pueden entrenar sin sobreajustar.

Además, debe tenerse en cuenta que estos dos problemas principales parecen estar relacionados de una manera aún poco conocida: los límites de generalización de la teoría del aprendizaje estadístico suponen que el modelo está entrenado para el óptimo global en el conjunto de entrenamiento, pero en un entorno práctico nunca entrenaría una red neuronal hasta la convergencia, incluso a un punto de silla de montar, ya que hacerlo normalmente causaría un sobreajuste. En cambio, deja de entrenar cuando el error en un conjunto de validación extendido (que es un proxy para el error de generalización) deja de mejorar. Esto se conoce como "parada temprana".
Entonces, en cierto sentido, toda esta investigación teórica sobre limitar el error de generalización del óptimo global puede ser bastante irrelevante: no solo no podemos encontrarlo de manera eficiente, sino que incluso si pudiéramos, no quisiéramos, ya que funcionaría peor en nuevos ejemplos que muchas soluciones "subóptimas".
Puede darse el caso de que la dureza de la optimización no sea un defecto de la red neuronal, por el contrario, tal vez las redes neuronales puedan funcionar en absoluto precisamente porque son difíciles de optimizar.
Todas estas observaciones son empíricas y no existe una buena teoría que las explique. Tampoco existe una teoría que explique cómo establecer los hiperparámetros de las redes neuronales (ancho y profundidad de capa oculta, tasas de aprendizaje, detalles arquitectónicos, etc.). Los practicantes utilizan su intuición perfeccionada por la experiencia y muchos ensayos y errores para obtener valores efectivos, mientras que una teoría podría permitirnos diseñar redes neuronales de una manera más sistemática.

Antonio Valerio Miceli-Barone
fuente
11

Otra versión de esta pregunta, para agregar a los comentarios de @ Aryeh: Para muchos otros modelos de aprendizaje, conocemos la "forma" del espacio de hipótesis. Los SVM son el mejor ejemplo de esto, ya que lo que está encontrando es un separador lineal en un espacio de Hilbert (posiblemente de alta dimensión).

Para las redes neuronales en general, no tenemos una descripción tan clara o incluso una aproximación. Y tal descripción es importante para que comprendamos qué es exactamente lo que una red neuronal está encontrando en los datos.

Suresh Venkat
fuente
¿Cómo llamarías a la "forma" del espacio de hipótesis? :) ¿El Teorema 2.1 (página 3) nuestro responde alguna de sus preguntas: eccc.weizmann.ac.il/report/2017/098 ? : D
Anirbit
4

El principio del cuello de botella de información se ha propuesto para explicar el éxito de las redes nuerales profundas.

Aquí hay una cita de la revista Quanta

El mes pasado, un video de YouTube de una conferencia en Berlín, ampliamente compartido entre los investigadores de inteligencia artificial, ofreció una posible respuesta. En la charla, Naftali Tishby, informático y neurocientífico de la Universidad Hebrea de Jerusalén, presentó evidencia en apoyo de una nueva teoría que explica cómo funciona el aprendizaje profundo. Tishby argumenta que las redes neuronales profundas aprenden de acuerdo con un procedimiento llamado "cuello de botella de información", que él y dos colaboradores describieron por primera vez en términos puramente teóricos en 1999. La idea es que una red libere datos de entrada ruidosos de detalles extraños como si exprimiera el información a través de un cuello de botella, conservando solo las características más relevantes para los conceptos generales.

Referencias

1- El aprendizaje profundo y el principio del cuello de botella de información , Naftali Tishby y Noga Zaslavsky

2- Apertura de la caja negra de redes neuronales profundas a través de información , Ravid Shwartz-Ziv y Naftali Tishby

3- Video de la conferencia: Teoría de la información del aprendizaje profundo por Naftali Tishby

Mohammad Al-Turkistany
fuente
1

Diría que aún necesitamos descubrir un algoritmo eficiente para entrenar redes neuronales profundas. Sí, SGD funciona bien en la práctica, pero encontrar un mejor algoritmo que tenga garantías para converger al mínimo global sería muy bueno.

didymus
fuente