Buen tutorial para máquinas de Boltzmann restringidas (RBM)

10

Estoy estudiando la máquina de Boltzmann restringida (RBM) y tengo algunos problemas para comprender los cálculos de probabilidad de registro con respecto a los parámetros de la RBM. Aunque se han publicado muchos trabajos de investigación sobre RBM, no hay pasos detallados de los derivados. Después de buscar en línea pude encontrarlos en este documento:

  • Fischer, A. e Igel, C. (2012). Una introducción a las máquinas de Boltzmann restringidas. En L. Alvarez et al. (Eds.): CIARP, LNCS 7441, págs. 14–36, Springer-Verlag: Berlín-Heidelberg. ( pdf )

Sin embargo, los detalles de este documento son demasiado avanzados para mí. ¿Alguien puede señalarme un buen tutorial / conjunto de apuntes sobre RBM?


Editar: @David, la sección confusa se muestra a continuación (ecuación 29 en la página 26):

lnL(θEl |v)wyoj=-hpag(hEl |v)mi(v,h)wyoj+v,hpag(v,h)mi(v,h)wyoj=hpag(hEl |v)hyovj-vpag(v)hpag(hEl |v)hyovj(29)=pag(Hyo=1El |v)vj-vpag(v)pag(Hyo=1El |v)vj.
Upul
fuente
¿Puedes ser más específico sobre qué pasos te confunden?
David J. Harris
1
una buena lectura es el capítulo 5 de aprendizaje de arquitecturas profundas para IA ( iro.umontreal.ca/~bengioy/papers/ftml_book.pdf )
dksahuji
@dksahuji gracias por INFO, también prof: Bengio está escribiendo un DL y el borrador inicial está disponible en iro.umontreal.ca/~bengioy/dlbook
Upul
Este tutorial tiene explicaciones sobre las matemáticas de RBM ( Un tutorial sobre máquinas de Boltzmann restringidas ).
Jiang Xiang

Respuestas:

7

Sé que es un poco tarde, pero tal vez ayuda. Para obtener el primer término de su ecuación, siga estos pasos: Hemos asumido que la independencia condicional entre existen unidades ocultas, dadas las unidades visibles. Por lo tanto, podemos factorizar la distribución de probabilidad conjunta condicional para los estados ocultos.

hpag(hEl |v)hyovj=vjh1...hyo...hnortepag(h1,...,hyo,...hnorteEl |v)hyo=vjhyoh_ _yopag(hyo,h_ _yoEl |v)hyo
=vjhyoh_ _yopag(hyoEl |v)hyopag(h_ _yoEl |v)=vjhyopag(hyoEl |v)hyoh_ _yopag(h_ _yoEl |v)
El último término es igual a , ya que estamos sumando todos los estados. Por lo tanto, lo que queda es el primer término. Como solo toma los estados y , terminamos con: 1hyo10 0
=vjpag(Hyo=1El |v)
peschn
fuente
7
  1. Hay un tutorial decente de RBM en el sitio de aprendizaje profundo .

  2. Esta publicación de blog ( Introducción a las máquinas de Boltzmann restringidas ) está escrita en un lenguaje más simple y explica los conceptos básicos de RBMS realmente bien:

  3. Además, quizás la mejor referencia es el curso de Redes Neurales de Geoff Hinton en Coursea:

    Sin embargo, no estoy seguro de si puedes acceder a la clase y a los videos después del final de la clase.

sjm.majewski
fuente
2
Todavía hay personas que se inscriben en la clase Coursera y publican en el foro. Todavía puede ver todas las conferencias y acceder a todas las pruebas y tareas de programación (entre las pruebas). Esta información probablemente estará activa hasta que el curso se ofrezca nuevamente. Recomiendo inscribirse en el curso solo para ver o descargar el material.
Douglas Zare
1

El cuadro naranja de la izquierda le brinda el valor esperado del gradiente de energía sobre todas las configuraciones ocultas dado que algún vector visible está sujeto a las unidades visibles (la expectativa sobre los datos ya que utiliza una muestra de su conjunto de entrenamiento). El término en sí es el producto de (1) la probabilidad de ver una unidad oculta particular i dado que algún vector v está sujeto a las unidades visibles y (2) el estado de una unidad visible particular j.

El cuadro naranja derecho es lo mismo que el izquierdo, excepto que está haciendo lo que está en el cuadro naranja izquierdo para cada configuración visible posible en lugar de solo la que está sujeta en las unidades visibles (la expectativa sobre el modelo ya que nada está sujeto en las unidades visibles).

avalon
fuente
1

El capítulo 5 del curso de Hugo Larochelle sobre aprendizaje automático ( video ) es la mejor introducción que he encontrado hasta ahora.

La derivada de la función de pérdida no se deriva en estas conferencias, pero no es difícil hacerlo (puedo publicar un escaneo de mis cálculos si es necesario, pero en realidad no es tan difícil). Todavía estoy buscando un buen libro de texto que cubra este tema, pero principalmente solo hay artículos. Hay una buena visión general de los artículos en el capítulo 20 del Libro de aprendizaje profundo de Bengio .

jakab922
fuente