Estoy luchando por hacer la conexión matemática entre una red neuronal y un modelo gráfico.
En los modelos gráficos, la idea es simple: la distribución de probabilidad se factoriza de acuerdo con las camarillas en el gráfico, y los potenciales generalmente son de la familia exponencial.
¿Existe un razonamiento equivalente para una red neuronal? ¿Se puede expresar la distribución de probabilidad sobre las unidades (variables) en una máquina de Boltzmann restringida o una CNN en función de su energía, o el producto de las energías entre unidades?
Además, ¿la distribución de probabilidad está modelada por una RBM o una red de creencias profundas (por ejemplo, con CNN) de la familia exponencial?
Espero encontrar un texto que formalice la conexión entre estos tipos modernos de redes neuronales y estadísticas de la misma manera que lo hicieron Jordan & Wainwright para los modelos gráficos con sus Modelos Gráficos, Familias Exponenciales e Inferencia Variacional . Cualquier punto sería genial.
fuente
"using deep nets as factors in an MRF"
), sino más sobre cómo mirar una red profunda como un gráfico de factor probabilístico. Cuando Yann LeCun dice"of course deep Boltzmann Machines are a form of probabilistic factor graph themselves"
, estoy interesado en ver esa conexión matemáticamente.https://distill.pub/2017/feature-visualization/
( cómo las redes neuronales desarrollan su comprensión de las imágenes ), en el sentido de que una imagen compleja tiene objetos componentes representados por nodos de capa oculta. Los pesos pueden 'alterar' la 'topología' de manera no discreta. Aunque no lo he visto, algunos métodos podrían incluir factores de contracción para eliminar bordes y, por lo tanto, cambiar la topología originalRespuestas:
Otra buena introducción sobre el tema es el curso CSC321 en la Universidad de Toronto y el curso neuralnets-2012-001 en Coursera, ambos impartidos por Geoffrey Hinton.
Del video en Belief Nets:
Modelos gráficos
Los primeros modelos gráficos utilizaron expertos para definir la estructura gráfica y las probabilidades condicionales. Las gráficas estaban escasamente conectadas, y el enfoque estaba en realizar la inferencia correcta, y no en el aprendizaje (el conocimiento provino de los expertos).
Redes neuronales
Para las redes neuronales, el aprendizaje era central. Cablear el conocimiento no era genial (OK, tal vez un poco). El aprendizaje provino del aprendizaje de los datos de capacitación, no de expertos. Las redes neuronales no tenían como objetivo la interpretabilidad de la conectividad dispersa para facilitar la inferencia. Sin embargo, hay versiones de redes neuronales de redes de creencias.
Tengo entendido que las redes de creencias generalmente están demasiado densamente conectadas y sus camarillas son demasiado grandes para ser interpretables. Las redes de creencias utilizan la función sigmoide para integrar entradas, mientras que los modelos gráficos continuos suelen utilizar la función gaussiana. El sigmoide hace que la red sea más fácil de entrenar, pero es más difícil de interpretar en términos de probabilidad. Creo que ambos están en la familia exponencial.
Estoy lejos de ser un experto en esto, pero las notas de la conferencia y los videos son un gran recurso.
fuente
Radford Neal ha hecho un buen trabajo en esta área que podría interesarle, incluido un trabajo directo para equiparar modelos gráficos bayesianos con redes neuronales. (Aparentemente, su disertación fue sobre este tema específico).
No estoy lo suficientemente familiarizado con este trabajo para proporcionar un resumen inteligente, pero quería darle el puntero en caso de que lo encuentre útil.
fuente
Este puede ser un hilo viejo, pero sigue siendo una pregunta relevante.
El ejemplo más destacado de las conexiones entre las redes neuronales (NN) y los modelos gráficos probabilísticos (PGM) es el que existe entre las máquinas de Boltzmann (y sus variaciones como BM restringido, BM profundo, etc.) y PGM no dirigidas de Markov Random Field.
Del mismo modo, Belief Networks (y sus variaciones como Deep BN, etc.) son un tipo de PGM dirigidas de gráficos bayesianos.
Para más, ver:
fuente