¿Existe realmente una falta de teoría fundamental sobre el aprendizaje profundo?

10

Escuché varias veces que uno de los problemas fundamentales / abiertos del aprendizaje profundo es la falta de "teoría general" porque en realidad no sabemos por qué el aprendizaje profundo funciona tan bien. Incluso la página de Wikipedia sobre aprendizaje profundo tiene comentarios similares . ¿Son tales declaraciones creíbles y representativas del estado del campo?

Heleone
fuente

Respuestas:

5

Hay un artículo llamado ¿Por qué el aprendizaje profundo funciona tan bien? .

"Sin embargo, todavía no se entiende completamente por qué el aprendizaje profundo funciona tan bien. A diferencia de los algoritmos GOFAI (" buena IA antigua ") que están hechos a mano y se entienden completamente analíticamente, muchos algoritmos que usan redes neuronales artificiales se entienden solo en un nivel heurístico, donde sabemos empíricamente que ciertos protocolos de entrenamiento que emplean grandes conjuntos de datos darán como resultado un rendimiento excelente. Esto es una reminiscencia de la situación con el cerebro humano: sabemos que si capacitamos a un niño de acuerdo con un determinado plan de estudios, aprenderá ciertos habilidades, pero nos falta una comprensión profunda de cómo su cerebro logra esto ".

BlindKungFuMaster
fuente
3

Este es en gran medida el caso. Los modelos de aprendizaje profundo, incluso los poco profundos, como los codificadores automáticos apilados y las redes neuronales, no se entienden completamente. Hay esfuerzos para comprender lo que está sucediendo con el proceso de optimización para una función intensiva variable tan compleja. Pero, esta es una tarea difícil.

Una forma en que los investigadores están utilizando para descubrir cómo funciona el aprendizaje profundo es mediante el uso de modelos generativos. Primero entrenamos un algoritmo de aprendizaje y lo perjudicamos sistemáticamente mientras le pedimos que genere ejemplos. Al observar los ejemplos generados resultantes podremos inferir lo que está sucediendo en el algoritmo a un nivel más significativo. Esto es muy parecido a usar inhibidores en neurociencia para comprender para qué se utilizan los diferentes componentes del cerebro. Por ejemplo, sabemos que la corteza visual está donde está porque si la dañamos quedará ciego.

JahKnows
fuente
2

Probablemente depende de lo que uno entienda por "teoría fundamental", pero no falta una teoría cuantitativa rigurosa en el aprendizaje profundo, algunas de las cuales son muy generales, a pesar de las afirmaciones en contrario.

Un buen ejemplo es el trabajo en torno a métodos de aprendizaje basados ​​en la energía. Ver, por ejemplo, el trabajo de Neal & Hinton sobre inferencia variacional y energía libre: http://www.cs.toronto.edu/~fritz/absps/emk.pdf

También esta guía para la minimización de energía como un "marco teórico común para muchos modelos de aprendizaje" por Yann LeCun y colegas: http://yann.lecun.com/exdb/publis/pdf/lecun-06.pdf

Y un marco general para modelos basados ​​en energía de Scellier y Bengio: https://arxiv.org/pdf/1602.05179.pdf

También existe el trabajo anterior de Hinton y Sejnowski que muestra analíticamente que una red particular inspirada en Hopfield + un algoritmo de aprendizaje no supervisado puede aproximarse a la inferencia óptima de Bayes: https://papers.cnl.salk.edu/PDFs/Optimal%20Perceptual%20Inference%201983 -646.pdf

También hay muchos documentos que vinculan el aprendizaje profundo con la neurociencia teórica, como los siguientes, que muestran que los efectos de la retropropagación se pueden lograr en arquitecturas neurales biológicamente plausibles: https://arxiv.org/pdf/1411.0247.pdf

Por supuesto, hay muchas preguntas abiertas y ninguna teoría unificada, incontrovertida, pero lo mismo podría decirse de casi cualquier campo.

a.kief
fuente
1

Su cita de wikipedia es cuestionable porque el aprendizaje profundo está bien desarrollado. De hecho, hay un [citation needed]en la página de Wikipedia.

Mira https://github.com/terryum/awesome-deep-learning-papers . Hay como 100 documentos en el enlace, ¿todavía crees que el aprendizaje profundo carece de "teoría general"?

Si. El aprendizaje profundo es difícil de entender porque es un modelo muy complicado. Pero eso no significa que no tengamos las teorías.

Tal vez el limepaquete y su papel: "¿Por qué debería confiar en usted?": Explicar las predicciones de cualquier clasificador lo ayudará. El documento sugiere que deberíamos poder aproximar un modelo complicado (incluye aprendizaje profundo) localmente con un modelo mucho más simple.

Hola Mundo
fuente
3
Muchas aplicaciones interesantes no significan que esas aplicaciones se desarrollaron siguiendo un proceso riguroso. "Hmm ... ¿tal vez debería probar 8 capas en su lugar? Ah ... ¡funciona! Genial, publiquemos los resultados".
Chris Anderson
2
"El aprendizaje profundo es difícil de entender porque es un modelo muy complicado. Pero eso no significa que no tengamos las teorías". Es cierto, pero también no tenemos las teorías. Hay muy poca comprensión matemática de las técnicas en la literatura. La mayoría de las explicaciones de cómo o por qué funciona el aprendizaje profundo se basan en la intuición y el empirismo, lo cual está bien, pero no constituye una teoría de la OMI.
user27182
0

Una pregunta clave que permanece en la teoría del aprendizaje profundo es por qué modelos tan grandes (con muchos más parámetros que puntos de datos) no se ajustan demasiado a los conjuntos de datos que utilizamos.

La teoría clásica basada en medidas de complejidad no explica el comportamiento de las redes neuronales prácticas. Por ejemplo, las estimaciones de la dimensión VC dan límites de generalización vacíos. Hasta donde sé, los límites más estrictos (superior e inferior) en la dimensión VC se dan en [1] y están en el orden del número de pesos en la red. Claramente, esta complejidad del peor de los casos no puede explicar cómo, por ejemplo, una gran red general se generaliza en CIFAR o MNIST.

Recientemente ha habido otros intentos de garantizar la generalización de las redes neuronales, por ejemplo, en relación con el núcleo de la tangente neuronal o mediante diversas medidas normativas sobre los pesos. Respectivamente, se ha descubierto que no se aplican a redes de tamaño práctico y que tienen otras propiedades insatisfactorias [2].

Hay algo de trabajo en el marco PAC Bayes para límites no vacíos, por ejemplo [3]. Sin embargo, estas configuraciones requieren cierto conocimiento de la red capacitada y, por lo tanto, tienen un sabor diferente al análisis PAC clásico.

Algunos otros aspectos:

  • optimización: ¿cómo es que obtenemos soluciones 'buenas' del descenso de gradiente en un problema tan no convexo? (Hay algunas respuestas a esto en la literatura reciente)

  • Interpretabilidad: ¿Podemos explicar en un nivel intuitivo qué está "pensando" la red? (No es mi área)

referencias (incompletas):

usuario27182
fuente
0

Me gustaría señalar que no hay una buena teoría sobre por qué el aprendizaje automático funciona en general. Los límites de VC todavía asumen un modelo, pero la realidad no se ajusta a ninguno de estos ideales matemáticos. En definitiva, cuando se trata de la aplicación, todo se reduce a resultados empericos. Incluso cuantificar la similitud entre imágenes usando un algoritmo que sea consistente con la comprensión intuitiva de los humanos es realmente difícil

De todos modos, NN no funciona bien en su forma totalmente conectada. Todas las redes exitosas tienen algún tipo de regularización integrada en la arquitectura de red (CNN, LSTM, etc.).

FourierFlux
fuente