¿Están los modelos gráficos y las máquinas de Boltzmann relacionados matemáticamente?

10

Si bien he hecho algo de programación con máquinas Boltzmann en una clase de física, no estoy familiarizado con su caracterización teórica. Por el contrario, sé una cantidad modesta sobre la teoría de los modelos gráficos (sobre los primeros capítulos del libro Graphical Models de Lauritzen ).

Pregunta: ¿Existe alguna relación significativa entre los modelos gráficos y la máquina de Boltzmann? ¿Es la máquina Boltzmann un tipo de modelo gráfico?

Obviamente, la máquina de Boltzmann es un tipo de red neuronal. He oído que algunas redes neuronales están matemáticamente relacionadas con modelos gráficos y que otras no.

Preguntas relacionadas sobre CrossValidated que no responden a mi pregunta:
Esto es similar a una pregunta anterior que se ha hecho antes: ¿Cuál es la relación entre modelos jerárquicos, redes neuronales, modelos gráficos, redes bayesianas? Pero es más específico.

Además, la respuesta aceptada a esa pregunta no aclara mi confusión, incluso si los nodos en la representación gráfica estándar de una red neuronal no representan variables aleatorias, eso no significa necesariamente que no exista tal representación. Específicamente, estoy pensando en cómo los nodos en la representación gráfica típica de las cadenas de Markov representan el conjunto de estados posibles en lugar de las variables aleatorias , pero también se podría crear un gráfico que muestre las relaciones de dependencia condicional entreX iXyoXyo, que muestra que cada cadena de Markov es de hecho un campo aleatorio de Markov. La respuesta también dice que las redes neuronales (presumiblemente incluyendo máquinas de Boltzmann) son "discriminatorias", pero no entra en más detalles para explicar qué significa esa afirmación, ni la pregunta obvia de seguimiento "¿son los modelos gráficos no discriminatorios?" dirigido. Del mismo modo, la respuesta aceptada enlaza con el sitio web de Kevin Murphy (en realidad leí algunas de sus tesis doctorales cuando aprendí sobre las redes bayesianas), pero este sitio web solo analiza las redes bayesianas y no menciona en absoluto las redes neuronales, por lo que no ilumina cómo son diferentes.

Esta otra pregunta es probablemente la más similar a la mía: modelar matemáticamente redes neuronales como modelos gráficos. Sin embargo, ninguna de las respuestas fue aceptada, y de la misma manera solo dan referencias pero no explican las referencias (por ejemplo, esta respuesta ). Si bien algún día podré entender las referencias, en este momento estoy en un nivel básico de conocimiento y agradecería una respuesta lo más simplificada posible. Además, el curso de Toronto vinculado en la respuesta superior ( http://www.cs.toronto.edu/~tijmen/csc321/lecture_notes.shtml ) aborda esto, pero no con mucho detalle. Además, las notas de la conferencia que podrían responder a mi pregunta no están disponibles para el público.

25 de marzo Lección 13b: Redes de creencias 7:43. Para esta diapositiva, tenga en cuenta las máquinas Boltzmann. Allí, también, tenemos unidades ocultas y unidades visibles, y todo es probabilístico. Las BM y las SBN tienen más en común que diferencias. 9:16. Hoy en día, los "Modelos gráficos" a veces se consideran como una categoría especial de redes neuronales, pero en la historia que se describe aquí, se los consideraba tipos de sistemas muy diferentes.

Chill2Macht
fuente

Respuestas:

7

Máquinas de Boltzmann versus máquinas de Boltzmann restringidas

AFAIK las máquinas de Boltzmann es un tipo de modelo gráfico, y el modelo relacionado con las redes neuronales son las máquinas de Boltzmann restringidas (RBM).

La diferencia entre las máquinas de Boltzmann y las máquinas de Boltzmann restringidas, del libro Machine Learning A Probabilistic Perspective ingrese la descripción de la imagen aquí

RBMs vs redes neuronales

Para RBMs (ref: Una guía práctica para el entrenamiento de máquinas Boltzmann restringidas por Geoffrey Hinton ) donde y corresponden a las unidades visibles y ocultas en la figura anterior, y es la función Sigmoide.

pag(v,h)=1ZExp(unayovyo+sijhj+vyohjwyoj)
pag(hj=1El |v)=σ(sij+vyowyoj)
pag(vyo=1El |h)=σ(unayo+hjwyoj)
vhσ()

Las probabilidades condicionales se calculan en la misma forma de capas de red, por lo que los pesos entrenados de RBM se pueden usar directamente como los pesos de las redes neuronales o como un punto de partida de entrenamiento.

Creo que el RBM en sí mismo es más un modelo gráfico que un tipo de red neuronal, ya que no está dirigido, tiene dependencias condicionales bien definidas y utiliza sus propios algoritmos de entrenamiento (por ejemplo, divergencia contrastante).

dontloo
fuente
2
Agradable, esta es una gran respuesta con una gran referencia. También me hace querer leer el libro del profesor Murphy incluso antes. Aprecio el tiempo que tomó para hacer esta respuesta completa.
Chill2Macht
2
@William contento de ser de ayuda :)
dontloo
2
v=h=σ()=
2
@ GeoMatt22 gracias, he actualizado la respuesta.
dontloo
3

Esto solo confirma / verifica la respuesta aceptada, que las máquinas Boltzmann son de hecho un caso especial de modelo gráfico. Específicamente, esta pregunta se aborda en las páginas 127-127 de Koller, Friedman, Modelos gráficos probabilísticos: principios y técnicas , en el recuadro 4.C.

Uno de los primeros tipos de modelos de red de Markov es el modelo de Ising, que surgió por primera vez en física estadística como un modelo para la energía de un sistema físico que involucra un sistema de átomos que interactúan ... Relacionado con el modelo de Ising está la distribución de la máquina de Boltzmann. La energía resultante puede reformularse en términos de un modelo de Ising (Ejercicio 4.12).

La forma en que el modelo de Ising, originalmente un concepto de la literatura de mecánica estadística, puede formularse como un modelo gráfico se da con mucho detalle en el Ejemplo 3.1., Sección 3.3., En las páginas 41-43 de Wainwright, Jordan, Graphical Models, Exponencial Familias e inferencia variacional .

Aparentemente, el modelo de Ising fue instrumental en la base del campo de los modelos gráficos a fines de los años 70 y principios de los 80, al menos en base a lo que dice Steffen Lauritzen tanto en el prefacio como en la introducción de su libro, Modelos gráficos . Esta interpretación también parece respaldada por la Sección 4.8 en el libro de Koller y Friedman citado anteriormente.

El desarrollo de máquinas Boltzmann a partir del modelo Ising puede haber sido un hecho independiente, basado en la misma sección de Koller y Friedman también, que afirma que "las máquinas Boltzmann fueron propuestas por primera vez por Hinton y Sejnowski (1983)", lo que parece tener ocurrió después del trabajo inicial en el desarrollo de campos aleatorios de Markov como generalizaciones del modelo de Ising, aunque el trabajo detrás de ese documento podría haber comenzado mucho antes de 1983.


Mi confusión con respecto a esta relación, cuando escribí esta pregunta hace más de un año, surgió del hecho de que encontré por primera vez tanto el modelo de Ising como el modelo de máquina de Boltzmann para neuronas, en la literatura de física. Como mencionan Koller y Friedman, la literatura dentro de la comunidad de física estadística sobre el modelo de Ising y las nociones relacionadas es realmente vasta.

En mi experiencia, también es bastante insular, en el sentido de que si bien los estadísticos y los informáticos que estudian modelos gráficos mencionarán cómo se relaciona el campo con la mecánica estadística, ninguna referencia que haya encontrado en la literatura de física estadística menciona las conexiones a otros campos o intenta explotarlo. (Por lo tanto, me hace dudar y confundirme con la idea de que podría haber tales conexiones a otros campos).

Para ver un ejemplo de la perspectiva del físico tanto en el modelo de Ising como en la máquina de Boltzmann, vea el libro de texto del curso donde lo supe por primera vez. También menciona métodos de campo medios, si mal no recuerdo, algo discutido también en el artículo de Jordan y Wainwright citado anteriormente.

Chill2Macht
fuente
2
la conexión puede ser muy delgada y basarse principalmente en el uso de la función de partición que está en la base de la mecánica estadística y que se toma la exponencial de la suma de los productos internos. La función softmax también usa esta forma, por lo que la nomenaclatura mantiene el legado de los términos y muchos físicos trabajan (ed) en ML (por ejemplo, Christopher Bishop).
Vass