Probablemente depende de lo que uno entienda por "teoría fundamental", pero no falta una teoría cuantitativa rigurosa en el aprendizaje profundo, algunas de las cuales son muy generales, a pesar de las afirmaciones en contrario.
Un buen ejemplo es el trabajo en torno a métodos de aprendizaje basados en la energía. Ver, por ejemplo, el trabajo de Neal & Hinton sobre inferencia variacional y energía libre: http://www.cs.toronto.edu/~fritz/absps/emk.pdf
También esta guía para la minimización de energía como un "marco teórico común para muchos modelos de aprendizaje" por Yann LeCun y colegas: http://yann.lecun.com/exdb/publis/pdf/lecun-06.pdf
Y un marco general para modelos basados en energía de Scellier y Bengio:
https://arxiv.org/pdf/1602.05179.pdf
También existe el trabajo anterior de Hinton y Sejnowski que muestra analíticamente que una red particular inspirada en Hopfield + un algoritmo de aprendizaje no supervisado puede aproximarse a la inferencia óptima de Bayes: https://papers.cnl.salk.edu/PDFs/Optimal%20Perceptual%20Inference%201983 -646.pdf
También hay muchos documentos que vinculan el aprendizaje profundo con la neurociencia teórica, como los siguientes, que muestran que los efectos de la retropropagación se pueden lograr en arquitecturas neurales biológicamente plausibles:
https://arxiv.org/pdf/1411.0247.pdf
Por supuesto, hay muchas preguntas abiertas y ninguna teoría unificada, incontrovertida, pero lo mismo podría decirse de casi cualquier campo.
Una pregunta clave que permanece en la teoría del aprendizaje profundo es por qué modelos tan grandes (con muchos más parámetros que puntos de datos) no se ajustan demasiado a los conjuntos de datos que utilizamos.
La teoría clásica basada en medidas de complejidad no explica el comportamiento de las redes neuronales prácticas. Por ejemplo, las estimaciones de la dimensión VC dan límites de generalización vacíos. Hasta donde sé, los límites más estrictos (superior e inferior) en la dimensión VC se dan en [1] y están en el orden del número de pesos en la red. Claramente, esta complejidad del peor de los casos no puede explicar cómo, por ejemplo, una gran red general se generaliza en CIFAR o MNIST.
Recientemente ha habido otros intentos de garantizar la generalización de las redes neuronales, por ejemplo, en relación con el núcleo de la tangente neuronal o mediante diversas medidas normativas sobre los pesos. Respectivamente, se ha descubierto que no se aplican a redes de tamaño práctico y que tienen otras propiedades insatisfactorias [2].
Hay algo de trabajo en el marco PAC Bayes para límites no vacíos, por ejemplo [3]. Sin embargo, estas configuraciones requieren cierto conocimiento de la red capacitada y, por lo tanto, tienen un sabor diferente al análisis PAC clásico.
Algunos otros aspectos:
optimización: ¿cómo es que obtenemos soluciones 'buenas' del descenso de gradiente en un problema tan no convexo? (Hay algunas respuestas a esto en la literatura reciente)
Interpretabilidad: ¿Podemos explicar en un nivel intuitivo qué está "pensando" la red? (No es mi área)
referencias (incompletas):
fuente
Me gustaría señalar que no hay una buena teoría sobre por qué el aprendizaje automático funciona en general. Los límites de VC todavía asumen un modelo, pero la realidad no se ajusta a ninguno de estos ideales matemáticos. En definitiva, cuando se trata de la aplicación, todo se reduce a resultados empericos. Incluso cuantificar la similitud entre imágenes usando un algoritmo que sea consistente con la comprensión intuitiva de los humanos es realmente difícil
De todos modos, NN no funciona bien en su forma totalmente conectada. Todas las redes exitosas tienen algún tipo de regularización integrada en la arquitectura de red (CNN, LSTM, etc.).
fuente