Si bien he hecho algo de programación con máquinas Boltzmann en una clase de física, no estoy familiarizado con su caracterización teórica. Por el contrario, sé una cantidad modesta sobre la teoría de los modelos gráficos (sobre los primeros capítulos del libro Graphical Models de Lauritzen ).
Pregunta: ¿Existe alguna relación significativa entre los modelos gráficos y la máquina de Boltzmann? ¿Es la máquina Boltzmann un tipo de modelo gráfico?
Obviamente, la máquina de Boltzmann es un tipo de red neuronal. He oído que algunas redes neuronales están matemáticamente relacionadas con modelos gráficos y que otras no.
Preguntas relacionadas sobre CrossValidated que no responden a mi pregunta:
Esto es similar a una pregunta anterior que se ha hecho antes: ¿Cuál es la relación entre modelos jerárquicos, redes neuronales, modelos gráficos, redes bayesianas? Pero es más específico.
Además, la respuesta aceptada a esa pregunta no aclara mi confusión, incluso si los nodos en la representación gráfica estándar de una red neuronal no representan variables aleatorias, eso no significa necesariamente que no exista tal representación. Específicamente, estoy pensando en cómo los nodos en la representación gráfica típica de las cadenas de Markov representan el conjunto de estados posibles en lugar de las variables aleatorias , pero también se podría crear un gráfico que muestre las relaciones de dependencia condicional entreX i, que muestra que cada cadena de Markov es de hecho un campo aleatorio de Markov. La respuesta también dice que las redes neuronales (presumiblemente incluyendo máquinas de Boltzmann) son "discriminatorias", pero no entra en más detalles para explicar qué significa esa afirmación, ni la pregunta obvia de seguimiento "¿son los modelos gráficos no discriminatorios?" dirigido. Del mismo modo, la respuesta aceptada enlaza con el sitio web de Kevin Murphy (en realidad leí algunas de sus tesis doctorales cuando aprendí sobre las redes bayesianas), pero este sitio web solo analiza las redes bayesianas y no menciona en absoluto las redes neuronales, por lo que no ilumina cómo son diferentes.
Esta otra pregunta es probablemente la más similar a la mía: modelar matemáticamente redes neuronales como modelos gráficos. Sin embargo, ninguna de las respuestas fue aceptada, y de la misma manera solo dan referencias pero no explican las referencias (por ejemplo, esta respuesta ). Si bien algún día podré entender las referencias, en este momento estoy en un nivel básico de conocimiento y agradecería una respuesta lo más simplificada posible. Además, el curso de Toronto vinculado en la respuesta superior ( http://www.cs.toronto.edu/~tijmen/csc321/lecture_notes.shtml ) aborda esto, pero no con mucho detalle. Además, las notas de la conferencia que podrían responder a mi pregunta no están disponibles para el público.
25 de marzo Lección 13b: Redes de creencias 7:43. Para esta diapositiva, tenga en cuenta las máquinas Boltzmann. Allí, también, tenemos unidades ocultas y unidades visibles, y todo es probabilístico. Las BM y las SBN tienen más en común que diferencias. 9:16. Hoy en día, los "Modelos gráficos" a veces se consideran como una categoría especial de redes neuronales, pero en la historia que se describe aquí, se los consideraba tipos de sistemas muy diferentes.
Esto solo confirma / verifica la respuesta aceptada, que las máquinas Boltzmann son de hecho un caso especial de modelo gráfico. Específicamente, esta pregunta se aborda en las páginas 127-127 de Koller, Friedman, Modelos gráficos probabilísticos: principios y técnicas , en el recuadro 4.C.
La forma en que el modelo de Ising, originalmente un concepto de la literatura de mecánica estadística, puede formularse como un modelo gráfico se da con mucho detalle en el Ejemplo 3.1., Sección 3.3., En las páginas 41-43 de Wainwright, Jordan, Graphical Models, Exponencial Familias e inferencia variacional .
Aparentemente, el modelo de Ising fue instrumental en la base del campo de los modelos gráficos a fines de los años 70 y principios de los 80, al menos en base a lo que dice Steffen Lauritzen tanto en el prefacio como en la introducción de su libro, Modelos gráficos . Esta interpretación también parece respaldada por la Sección 4.8 en el libro de Koller y Friedman citado anteriormente.
El desarrollo de máquinas Boltzmann a partir del modelo Ising puede haber sido un hecho independiente, basado en la misma sección de Koller y Friedman también, que afirma que "las máquinas Boltzmann fueron propuestas por primera vez por Hinton y Sejnowski (1983)", lo que parece tener ocurrió después del trabajo inicial en el desarrollo de campos aleatorios de Markov como generalizaciones del modelo de Ising, aunque el trabajo detrás de ese documento podría haber comenzado mucho antes de 1983.
Mi confusión con respecto a esta relación, cuando escribí esta pregunta hace más de un año, surgió del hecho de que encontré por primera vez tanto el modelo de Ising como el modelo de máquina de Boltzmann para neuronas, en la literatura de física. Como mencionan Koller y Friedman, la literatura dentro de la comunidad de física estadística sobre el modelo de Ising y las nociones relacionadas es realmente vasta.
En mi experiencia, también es bastante insular, en el sentido de que si bien los estadísticos y los informáticos que estudian modelos gráficos mencionarán cómo se relaciona el campo con la mecánica estadística, ninguna referencia que haya encontrado en la literatura de física estadística menciona las conexiones a otros campos o intenta explotarlo. (Por lo tanto, me hace dudar y confundirme con la idea de que podría haber tales conexiones a otros campos).
Para ver un ejemplo de la perspectiva del físico tanto en el modelo de Ising como en la máquina de Boltzmann, vea el libro de texto del curso donde lo supe por primera vez. También menciona métodos de campo medios, si mal no recuerdo, algo discutido también en el artículo de Jordan y Wainwright citado anteriormente.
fuente