Casos de uso modernos de máquinas de Boltzmann restringidas (RBM)

16

Antecedentes: gran parte de la investigación moderna en los últimos ~ 4 años (post alexnet ) parece haberse alejado del uso de preentrenamiento generativo para redes neuronales para lograr resultados de clasificación de vanguardia.

Por ejemplo, los mejores resultados para mnist aquí incluyen solo 2 artículos de los 50 principales que parecen estar utilizando modelos generativos, los cuales son RBM. Los otros 48 artículos ganadores tratan sobre diferentes arquitecturas de avance discriminantes con mucho esfuerzo para encontrar mejores inicializaciones de peso novedosas y funciones de activación diferentes del sigmoide utilizado en la RBM y en muchas redes neuronales más antiguas.

Pregunta: ¿Hay alguna razón moderna para usar máquinas de Boltzmann restringidas?

Si no, ¿existe una modificación de facto que se pueda aplicar a estas arquitecturas de avance para hacer que cualquiera de sus capas sea generativa?

Motivación: pregunto porque algunos de los modelos que veo disponibles, por lo general variantes del RBM, no necesariamente tienen contrapartidas discriminatorias análogas obvias a estas capas / modelos generativos, y viceversa. Por ejemplo:

  • mcRBM

  • ssRBM

  • CRBM (aunque uno podría argumentar que la CNN utilizó arquitecturas de avance es la arquitectura análoga discriminativa)

Además, estos también fueron claramente pre alexnet, de 2010, 2011 y 2009 respetuosamente.

usuario27886
fuente
3
Por diversión, construí un feed generativo hacia adelante NN a través de la regresión automática. power2predict.edublogs.org/2016/06/26/…
Chris

Respuestas:

6

Esta es una especie de pregunta antigua, pero dado que esencialmente pide 'mejores prácticas', en lugar de lo que en realidad es técnicamente posible (es decir, no necesita demasiado enfoque de investigación), las mejores prácticas actuales son algo como:

  • Actualmente, los RBM no se usan normalmente
  • Cuando sea posible, se utilizan modelos lineales (regresión lineal, regresión logística).
  • de lo contrario, las redes de alimentación profunda con capas como capas completamente conectadas, capas convolucionales y agregando algún tipo de capas de regularización, como abandono y últimamente normalización por lotes
  • por supuesto, con capas de activación en el medio, típicamente ReLU, pero también se usan tanh y sigmoid
  • y probablemente algunas agrupaciones máximas (no siempre: también se utilizan agrupaciones promedio y otras)

Para usos generativos, las técnicas comunes incluyen:

Hugh Perkins
fuente
1

Hace poco encontré este artículo sobre "Máquinas adversarias codificadas de Boltzmann" que integra RBM con CNN como modelo generativo.

Los autores muestran que es matemáticamente "mejor" en algunos aspectos, y muestran algunos ejemplos de juguetes en los que BEAM parece mucho más capaz de aprender con precisión la distribución de datos en comparación con otros modelos GAN.

El punto de referencia del "mundo real" de los rostros de CelebA fue mucho menos impresionante: no está claro que BEAM funcione mejor o incluso mejor que otras GAN populares. Sin embargo, el uso de RBM en esta configuración es ciertamente interesante.

shimao
fuente
¿Crees que esta falla se atribuye al espacio de búsqueda de BEAM que permite un mayor conjunto de grados de libertad intrínsecos a la definición del modelo?
Vass