¿Qué es el aprendizaje profundo bayesiano?

13

¿Qué es el aprendizaje profundo bayesiano y cómo se relaciona con las estadísticas bayesianas tradicionales y el aprendizaje profundo tradicional?

¿Cuáles son los principales conceptos y matemáticas involucrados? ¿Podría decir que son solo estadísticas bayesianas no paramétricas? ¿Cuáles son sus trabajos fundamentales, así como sus principales desarrollos y aplicaciones actuales?

PD: Bayesian Deep Learning está recibiendo mucha atención, vea el taller de NIPS.

statslearner
fuente

Respuestas:

10

Yee Whye Teh, saliendo de su enlace del taller de NIPS, tuvo un discurso de apertura en NIPS sobre Bayesian Deep Learning (video: https://www.youtube.com/watch?v=LVBvJsTr3rg , diapositivas: http: //csml.stats. ox.ac.uk/news/2017-12-08-ywteh-breiman-lecture/) Creo que en algún momento de la charla, Teh resumió el aprendizaje profundo bayesiano como la aplicación del marco bayesiano a las ideas del aprendizaje profundo (como aprender un posterior sobre los pesos de una red neuronal), y el aprendizaje bayesiano profundo como la aplicación de ideas del aprendizaje profundo al Marco bayesiano (como procesos gaussianos profundos o familias exponenciales profundas). Por supuesto, hay ideas que abarcan la línea entre los dos conceptos, como los autoencoders variacionales. Cuando la mayoría de la gente dice aprendizaje profundo bayesiano, generalmente se refieren a cualquiera de los dos, y eso se refleja en los documentos aceptados en el taller que vinculó (junto con el taller del año anterior). Si bien las ideas se remontan al trabajo de Neal sobre el aprendizaje bayesiano de las redes neuronales en los años 90 (http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.446.9306&rep=rep1&type=pdf ), y ha habido trabajo en los últimos años desde entonces, probablemente uno de los documentos recientes más importantes sería el papel autoencoder variacional original ( https://arxiv.org/pdf/1312.6114.pdf ).

aleshing
fuente
10

Sugeriría que primero comprenda bien cuál es el modelo probabilístico subyacente en una red neuronal bayesiana tradicional. A continuación, algunos términos se escribirán en negrita . Por favor, busque en Google esos términos para encontrar información más detallada. Esto es solo una descripción básica. Espero que ayude.

Consideremos el caso de regresión en las redes neuronales de avance y establezcamos alguna notación.

Deje denota los valores de los predictores en la capa de entrada . Los valores de las unidades en las capas internas se denotarán con , para . Finalmente, tenemos la capa de salida .( z ( ) 1 , , z ( ) N )= 1 , , L - 1 ( y 1 , ... , y k )(X1,...,Xpag)=:(z1(0 0),...,znorte0 0(0 0))(z1(),...,znorte())=1,...,L-1 (y1,...,yk)=:(z1(L),...,znorteL(L))

Los pesos y el sesgo de la unidad en la capa se denotarán con y , respectivamente, para , y .w ( ) i j b ( ) i= 1 , ... , L i = 1 ... , N j = 1 , ... , N - 1yowyoj()siyo()=1,...,Lyo=1...,nortej=1,...,norte-1

Deje sea ​​la función de activación para la unidad en la capa , para e . i = 1 , ... , L i = 1 ... , N gi():RN1Ri=1,,Li=1,N

Las funciones de activación comúnmente utilizadas son la logística , ReLU (también conocida como parte positiva ) y tanh .

Ahora, para , defina las funciones de transición de capa en el que para .G ( ) : R N - 1R N : ( z ( - 1 ) 1 , , z ( - 1 ) N - 1 )( z ( ) 1 , , z ( ) N )=1,,L

G():RN1RN:(z1(1),,zN1(1))(z1(),,zN()),
zi()=gi()(j=1N1wij()zj(1)+bi()),
i=1,,N

Denotando el conjunto de pesos y sesgos de todas las unidades en todas las capas por , es decir nuestra red neuronal es la familia de funciones obtenida por la composición de las funciones de transición de capa: θ

θ={wij(),bi():=1,,L;i=1,N;j=1,,N1},
Gθ:RpRk
Gθ=G(L)G(L1)G(1).

No hay probabilidades involucradas en la descripción anterior. El propósito del negocio original de redes neuronales es el ajuste de funciones .

Lo "profundo" en Deep Learning representa la existencia de muchas capas internas en las redes neuronales bajo consideración.

Dado un conjunto de entrenamiento , intentamos minimizar la función objetivo sobre . Para algunos vectores de predictores en el conjunto de prueba , la respuesta predicha es simplemente , en la que es la solución encontrado para el problema de minimización. El estándar de oro para esta minimización es la retropropagación implementada por la biblioteca TensorFlow utilizando las funciones de paralelización disponibles en la GPU moderna{(xi,yi)Rp×Rk:i=1,,n}

yo=1norteyyo-solθ(Xyo)2,
θXsolθ^(X)θ^'s (para sus proyectos, consulte la interfaz de Keras ). Además, ahora hay hardware disponible que encapsula estas tareas ( TPU ). Dado que la red neuronal en general está sobre parametrizada, para evitar el sobreajuste se agrega alguna forma de regularización a la receta, por ejemplo, sumando una cresta como penalización a la función objetivo, o usando el abandono durante el entrenamiento. Geoffrey Hinton (alias Deep Learning Godfather) y sus colaboradores inventaron muchas de estas cosas. Las historias de éxito de Deep Learning están en todas partes.

Las probabilidades se introdujeron en la imagen a finales de los 80 y principios de los 90 con la propuesta de una probabilidad gaussiana y un previo gaussiano simple (posiblemente simplista), que supone una independencia a priori de todos los pesos y sesgos en la red:

LX,y(θ,σ2)σ-norteExp(-12σ2yo=1norteyyo-solθ(Xyo)2),
π(θ,σ2)Exp(-12σ0 02=1Lyo=1norte((siyo())2+j=1norte-1(wyoj())2))×π(σ2).

Por lo tanto, los previos marginales para los pesos y sesgos son distribuciones normales con media cero y varianza común . Este modelo conjunto original se puede involucrar mucho más, con el compromiso de dificultar la inferencia.σ0 02

El aprendizaje profundo bayesiano enfrenta la difícil tarea de tomar muestras de la distribución posterior correspondiente. Después de que esto se logra, las predicciones se hacen naturalmente con la distribución predictiva posterior , y las incertidumbres involucradas en estas predicciones se cuantifican completamente. El santo grial en Bayesian Deep Learning es la construcción de una solución eficiente y escalable. Se han utilizado muchos métodos computacionales en esta búsqueda: muestreo de Metropolis-Hastings y Gibbs , Hamiltoniano Monte Carlo y, más recientemente, inferencia variacional .

Vea los videos de la conferencia de NIPS para ver algunas historias de éxito: http://bayesiandeeplearning.org/

zen
fuente