Estoy estudiando la máquina de Boltzmann restringida (RBM) y tengo algunos problemas para comprender los cálculos de probabilidad de registro con respecto a los parámetros de la RBM. Aunque se han publicado muchos trabajos de investigación sobre RBM, no hay pasos detallados de los derivados. Después de buscar en línea pude encontrarlos en este documento:
- Fischer, A. e Igel, C. (2012). Una introducción a las máquinas de Boltzmann restringidas. En L. Alvarez et al. (Eds.): CIARP, LNCS 7441, págs. 14–36, Springer-Verlag: Berlín-Heidelberg. ( pdf )
Sin embargo, los detalles de este documento son demasiado avanzados para mí. ¿Alguien puede señalarme un buen tutorial / conjunto de apuntes sobre RBM?
Editar: @David, la sección confusa se muestra a continuación (ecuación 29 en la página 26):
references
rbm
Upul
fuente
fuente
Respuestas:
Sé que es un poco tarde, pero tal vez ayuda. Para obtener el primer término de su ecuación, siga estos pasos: Hemos asumido que la independencia condicional entre existen unidades ocultas, dadas las unidades visibles. Por lo tanto, podemos factorizar la distribución de probabilidad conjunta condicional para los estados ocultos.
fuente
Hay un tutorial decente de RBM en el sitio de aprendizaje profundo .
Esta publicación de blog ( Introducción a las máquinas de Boltzmann restringidas ) está escrita en un lenguaje más simple y explica los conceptos básicos de RBMS realmente bien:
Además, quizás la mejor referencia es el curso de Redes Neurales de Geoff Hinton en Coursea:
Sin embargo, no estoy seguro de si puedes acceder a la clase y a los videos después del final de la clase.
fuente
El cuadro naranja de la izquierda le brinda el valor esperado del gradiente de energía sobre todas las configuraciones ocultas dado que algún vector visible está sujeto a las unidades visibles (la expectativa sobre los datos ya que utiliza una muestra de su conjunto de entrenamiento). El término en sí es el producto de (1) la probabilidad de ver una unidad oculta particular i dado que algún vector v está sujeto a las unidades visibles y (2) el estado de una unidad visible particular j.
El cuadro naranja derecho es lo mismo que el izquierdo, excepto que está haciendo lo que está en el cuadro naranja izquierdo para cada configuración visible posible en lugar de solo la que está sujeta en las unidades visibles (la expectativa sobre el modelo ya que nada está sujeto en las unidades visibles).
fuente
El capítulo 5 del curso de Hugo Larochelle sobre aprendizaje automático ( video ) es la mejor introducción que he encontrado hasta ahora.
La derivada de la función de pérdida no se deriva en estas conferencias, pero no es difícil hacerlo (puedo publicar un escaneo de mis cálculos si es necesario, pero en realidad no es tan difícil). Todavía estoy buscando un buen libro de texto que cubra este tema, pero principalmente solo hay artículos. Hay una buena visión general de los artículos en el capítulo 20 del Libro de aprendizaje profundo de Bengio .
fuente