¿Respuesta no paramétrica bayesiana al aprendizaje profundo?

8

Según tengo entendido, las redes neuronales profundas están realizando un "aprendizaje de representación" al unir entidades en capas. Esto permite aprender estructuras dimensionales muy altas en las características. Por supuesto, es un modelo paramétrico con un número fijo de parámetros, por lo que tiene la limitación habitual de que la complejidad del modelo puede ser difícil de ajustar.

¿Existe una forma bayesiana (no paramétrica) de aprender tales estructuras en el espacio de características, permitiendo que la complejidad del modelo se adapte a los datos? Los modelos relacionados incluyen:

  • Dirichlet procesa modelos mixtos, que permiten dividir el espacio en grupos ilimitados, lo que permite que los datos elijan un número finito
  • modelos factoriales como Indian Buffet Process (IBP), que encuentran un número potencialmente infinito de características latentes (también conocidas como temas) que explican los datos.

Sin embargo, parece que el IBP no aprende representaciones profundas. También existe el problema de que estos métodos están diseñados para el aprendizaje no supervisado y usualmente utilizamos el aprendizaje profundo para tareas supervisadas. ¿Existe una variante del IBP u otros métodos que permitan que las representaciones crezcan a medida que lo exijan los datos?

cgreen
fuente
Realmente no sé si las redes neuronales profundas cuentan como un modelo paramétrico.
Skander H.

Respuestas:

6

Como señala la otra respuesta, una alternativa bayesiana no paramétrica común a las redes neuronales es el Proceso Gaussiano . (Ver también aquí ).

Sin embargo, la conexión es mucho más profunda que eso. Considere la clase de modelos conocidos como redes neuronales bayesianas (BNN). Dichos modelos son como redes neuronales profundas regulares, excepto que cada peso / parámetro en la red tiene una distribución de probabilidad que describe su valor . Una red neuronal normal es algo así como un caso especial de un BNN, excepto que la distribución de probabilidad en cada peso es un Delta de Dirac.

Un hecho interesante es que las redes neuronales bayesianas infinitamente anchas se convierten en procesos gaussianos bajo ciertas condiciones razonables.

La tesis de Neal, Bayesian Learning for Neural Networks (1995) muestra esto en el caso de una red de una sola capa con un IID previo. Un trabajo más reciente (ver Lee et al, Deep Neural Networks as Gaussian Processes , 2018 ) extiende esto a redes más profundas.

Entonces, tal vez pueda considerar los BNN grandes como aproximaciones de un modelo de proceso gaussiano no paramétrico.

En cuanto a su pregunta en general, las personas a menudo solo necesitan mapeos en el aprendizaje supervisado, lo que parece que los no paramétricos bayesianos no son tan comunes (al menos por ahora), principalmente por razones computacionales (lo mismo se aplica a los BNN, incluso con los avances recientes en inferencia variacional). Sin embargo, en el aprendizaje no supervisado, aparecen con más frecuencia. Por ejemplo:

usuario3658307
fuente