Según tengo entendido, las redes neuronales profundas están realizando un "aprendizaje de representación" al unir entidades en capas. Esto permite aprender estructuras dimensionales muy altas en las características. Por supuesto, es un modelo paramétrico con un número fijo de parámetros, por lo que tiene la limitación habitual de que la complejidad del modelo puede ser difícil de ajustar.
¿Existe una forma bayesiana (no paramétrica) de aprender tales estructuras en el espacio de características, permitiendo que la complejidad del modelo se adapte a los datos? Los modelos relacionados incluyen:
- Dirichlet procesa modelos mixtos, que permiten dividir el espacio en grupos ilimitados, lo que permite que los datos elijan un número finito
- modelos factoriales como Indian Buffet Process (IBP), que encuentran un número potencialmente infinito de características latentes (también conocidas como temas) que explican los datos.
Sin embargo, parece que el IBP no aprende representaciones profundas. También existe el problema de que estos métodos están diseñados para el aprendizaje no supervisado y usualmente utilizamos el aprendizaje profundo para tareas supervisadas. ¿Existe una variante del IBP u otros métodos que permitan que las representaciones crezcan a medida que lo exijan los datos?
Respuestas:
Como señala la otra respuesta, una alternativa bayesiana no paramétrica común a las redes neuronales es el Proceso Gaussiano . (Ver también aquí ).
Sin embargo, la conexión es mucho más profunda que eso. Considere la clase de modelos conocidos como redes neuronales bayesianas (BNN). Dichos modelos son como redes neuronales profundas regulares, excepto que cada peso / parámetro en la red tiene una distribución de probabilidad que describe su valor . Una red neuronal normal es algo así como un caso especial de un BNN, excepto que la distribución de probabilidad en cada peso es un Delta de Dirac.
La tesis de Neal, Bayesian Learning for Neural Networks (1995) muestra esto en el caso de una red de una sola capa con un IID previo. Un trabajo más reciente (ver Lee et al, Deep Neural Networks as Gaussian Processes , 2018 ) extiende esto a redes más profundas.
Entonces, tal vez pueda considerar los BNN grandes como aproximaciones de un modelo de proceso gaussiano no paramétrico.
En cuanto a su pregunta en general, las personas a menudo solo necesitan mapeos en el aprendizaje supervisado, lo que parece que los no paramétricos bayesianos no son tan comunes (al menos por ahora), principalmente por razones computacionales (lo mismo se aplica a los BNN, incluso con los avances recientes en inferencia variacional). Sin embargo, en el aprendizaje no supervisado, aparecen con más frecuencia. Por ejemplo:
Goyal et al, codificadores automáticos variacionales no paramétricos para el aprendizaje de representación jerárquica , 2017
Abbasnejad y Dick, Autoencoder variante infinito para aprendizaje semi-supervisado , 2017
Chen, aprendizaje profundo con agrupamiento no paramétrico , 2015
fuente
Hm, no estoy seguro, pero ¿quizás los procesos gaussianos profundos podrían ser un ejemplo de lo que estás buscando?
Procesos gaussianos profundos
También hay un trabajo más reciente sobre procesos gaussianos profundos sobre académicos, pero no tengo el conocimiento suficiente para decirte qué sería bueno leer:
https://scholar.google.de/scholar?as_ylo=2016&q=deep+gaussian+processes&hl=de&as_sdt=0,5&as_vis=1
fuente