Modelado matemático de redes neuronales como modelos gráficos

11

Estoy luchando por hacer la conexión matemática entre una red neuronal y un modelo gráfico.

En los modelos gráficos, la idea es simple: la distribución de probabilidad se factoriza de acuerdo con las camarillas en el gráfico, y los potenciales generalmente son de la familia exponencial.

¿Existe un razonamiento equivalente para una red neuronal? ¿Se puede expresar la distribución de probabilidad sobre las unidades (variables) en una máquina de Boltzmann restringida o una CNN en función de su energía, o el producto de las energías entre unidades?

Además, ¿la distribución de probabilidad está modelada por una RBM o una red de creencias profundas (por ejemplo, con CNN) de la familia exponencial?

Espero encontrar un texto que formalice la conexión entre estos tipos modernos de redes neuronales y estadísticas de la misma manera que lo hicieron Jordan & Wainwright para los modelos gráficos con sus Modelos Gráficos, Familias Exponenciales e Inferencia Variacional . Cualquier punto sería genial.

Amelio Vazquez-Reina
fuente
1
IM (enemigo) O el problema central aquí es que las redes neuronales no son realmente redes; prácticamente tienen una topología fija y, por lo tanto, tienen una pequeña posibilidad de almacenar cualquier información dentro de ella.
¿Has visto esta publicación reciente ?
jerad
@jerad Gracias, no había leído esa publicación. Mi pregunta no es tanto sobre cómo combinar estos modelos (por ejemplo, como cuando dice Yann "using deep nets as factors in an MRF"), sino más sobre cómo mirar una red profunda como un gráfico de factor probabilístico. Cuando Yann LeCun dice "of course deep Boltzmann Machines are a form of probabilistic factor graph themselves", estoy interesado en ver esa conexión matemáticamente.
Amelio Vazquez-Reina
@mbq, hemos visto algunas formas de almacenamiento de información de componentes de capa oculta, por ejemplo https://distill.pub/2017/feature-visualization/( cómo las redes neuronales desarrollan su comprensión de las imágenes ), en el sentido de que una imagen compleja tiene objetos componentes representados por nodos de capa oculta. Los pesos pueden 'alterar' la 'topología' de manera no discreta. Aunque no lo he visto, algunos métodos podrían incluir factores de contracción para eliminar bordes y, por lo tanto, cambiar la topología original
Vass

Respuestas:

6

Otra buena introducción sobre el tema es el curso CSC321 en la Universidad de Toronto y el curso neuralnets-2012-001 en Coursera, ambos impartidos por Geoffrey Hinton.

Del video en Belief Nets:

Modelos gráficos

Los primeros modelos gráficos utilizaron expertos para definir la estructura gráfica y las probabilidades condicionales. Las gráficas estaban escasamente conectadas, y el enfoque estaba en realizar la inferencia correcta, y no en el aprendizaje (el conocimiento provino de los expertos).

Redes neuronales

Para las redes neuronales, el aprendizaje era central. Cablear el conocimiento no era genial (OK, tal vez un poco). El aprendizaje provino del aprendizaje de los datos de capacitación, no de expertos. Las redes neuronales no tenían como objetivo la interpretabilidad de la conectividad dispersa para facilitar la inferencia. Sin embargo, hay versiones de redes neuronales de redes de creencias.


Tengo entendido que las redes de creencias generalmente están demasiado densamente conectadas y sus camarillas son demasiado grandes para ser interpretables. Las redes de creencias utilizan la función sigmoide para integrar entradas, mientras que los modelos gráficos continuos suelen utilizar la función gaussiana. El sigmoide hace que la red sea más fácil de entrenar, pero es más difícil de interpretar en términos de probabilidad. Creo que ambos están en la familia exponencial.

Estoy lejos de ser un experto en esto, pero las notas de la conferencia y los videos son un gran recurso.

Ostrokach
fuente
1
Bienvenido al sitio. Estamos tratando de construir un repositorio permanente de información estadística de alta calidad en forma de preguntas y respuestas. Por lo tanto, desconfiamos de las respuestas de solo enlace, debido a linkrot. ¿Puede publicar una cita completa y un resumen de la información en el enlace, en caso de que falle?
gung - Restablece a Monica
Esto es realmente lindo Gracias por agregar esta información y bienvenido a CV.
gung - Restablece a Monica
Tengo que señalar que la información en la primera mitad de su respuesta no es del todo precisa, lo que supongo que está implícito en el uso de "modelos gráficos tempranos" (debería ser "muy muy temprano"). Durante mucho tiempo, los modelos gráficos se han utilizado para aprender todos los aspectos de su arquitectura de la misma manera que las redes neuronales. ¡Pero su sugerencia posterior sobre los sigmoides que toman el lugar de los gaussianos en los gráficos de factores es interesante!
GuSuku
4

Radford Neal ha hecho un buen trabajo en esta área que podría interesarle, incluido un trabajo directo para equiparar modelos gráficos bayesianos con redes neuronales. (Aparentemente, su disertación fue sobre este tema específico).

No estoy lo suficientemente familiarizado con este trabajo para proporcionar un resumen inteligente, pero quería darle el puntero en caso de que lo encuentre útil.

lmjohns3
fuente
Por lo que entiendo de los trabajos de Neal, Mackay , etc., están utilizando la optimización bayesiana, donde los parámetros para optimizar son los pesos y sesgos neuronales, incluso van a mostrar que la normalización L2 de las redes neuronales puede verse como un gaussiano anterior a la pesas Ese programa ha continuado incluyendo el número de capas ocultas, neuronas dentro de cada capa, etc., entre las variables de optimización.
GuSuku
Pero esto es diferente de lo que solicitó el OP porque diseñar la arquitectura de la red neuronal para probar en la próxima ejecución es solo un caso especial de diseño experimental que utiliza modelos Bayesianos como un motor de hiperdiseño. Creo que lo que solicitó el OP fue un mapeo entre la red neuronal y el modelado bayesiano, en el "mismo nivel".
GuSuku
4

Este puede ser un hilo viejo, pero sigue siendo una pregunta relevante.

El ejemplo más destacado de las conexiones entre las redes neuronales (NN) y los modelos gráficos probabilísticos (PGM) es el que existe entre las máquinas de Boltzmann (y sus variaciones como BM restringido, BM profundo, etc.) y PGM no dirigidas de Markov Random Field.

Del mismo modo, Belief Networks (y sus variaciones como Deep BN, etc.) son un tipo de PGM dirigidas de gráficos bayesianos.

Para más, ver:

  1. Yann Lecun, " Un tutorial sobre el aprendizaje basado en la energía " (2006)
  2. Yoshua Bengio, Ian Goodfellow y Aaron Courville, "Deep Learning", cap. 16 y 20 (libro en preparación, al momento de escribir esto)
GuSuku
fuente