¿Alguien ha visto alguna literatura sobre pre-entrenamiento en redes neuronales convolucionales profundas? Solo he visto pre-entrenamiento sin supervisión en autoencoder o máquinas boltzman restringidas.
¿Alguien ha visto alguna literatura sobre pre-entrenamiento en redes neuronales convolucionales profundas? Solo he visto pre-entrenamiento sin supervisión en autoencoder o máquinas boltzman restringidas.
No estoy seguro de si esto responde exactamente a su pregunta, pero por lo que entiendo la razón por la que no ve a la gente entrenando ( quiero decir esto en un sentido de entrenamiento no supervisado ) las redes se deben a que ha habido varias innovaciones en la capacitación supervisada puramente. han hecho innecesaria la capacitación sin supervisión (por ahora, ¿quién sabe qué problemas y problemas tendrá el futuro?).
Una de las principales innovaciones fue alejarse de las unidades de activación sigmoideas (sigmoides, tanh), que pueden saturar / tener regiones de curvatura casi plana y, por lo tanto, muy poco gradiente se propaga hacia atrás, por lo que el aprendizaje es increíblemente lento si no se detiene por completo para todos los intentos prácticos. y propósitos. El artículo de Glorot, Bordes y Bengio Las Redes Neurales del Rectificador Profundo Escaso utilizaron unidades lineales rectificadas (ReLU) como funciones de activación en lugar de las unidades sigmoidales tradicionales. Las ReLU tienen la siguiente forma: . Tenga en cuenta que son ilimitados y para la parte positiva, tiene un gradiente constante 1.
Otra innovación es que hemos descubierto inicializaciones mucho mejores para redes profundas. Utilizando la idea de estandarizar la varianza entre las capas de una red, a lo largo de los años se han establecido buenas reglas generales. Uno de los primeros y más populares fue por Glorot y Bengio Comprender la dificultad de entrenar redes de alimentación profunda que proporcionaron una forma de inicializar redes profundas bajo una hipótesis de activación lineal y más adelante Profundizando en rectificadorespor un grupo de miembros del equipo de Microsoft Research que modifica la inicialización de peso Glorot y Bengio para dar cuenta de las no linealidades rectificadoras. La inicialización del peso es un gran problema para las redes extremadamente profundas. Para una red de 30 capas, la inicialización de peso de MSR se desempeñó mucho mejor que la inicialización de peso de Glorot. Tenga en cuenta que el documento Glorot salió en 2010 y el documento MSR salió en 2015.
No estoy seguro de si el documento de Clasificación de ImageNet con redes neuronales convolucionales profundas de Alex Krizhevsky, Ilya Sutskever y Geoff Hinton fue el primero en usar ReLU para redes de comunicación, pero tuvo el mayor impacto. En este artículo, vemos que las ReLU para redes aceleran el aprendizaje, como lo demuestra uno de sus gráficos CIFAR-10 que muestra que las redes ReLU pueden lograr tasas de error de entrenamiento más bajas que las redes que no son ReLU. Estas ReLU no sufren el gradiente de fuga / problemas sigmoidales de saturación y pueden usarse para entrenar redes mucho más profundas. Una de las otras grandes innovaciones ha sido el uso del entrenamiento Dropout, una inyección de ruido estocástico o una técnica de promediación de modelos (dependiendo de su punto de vista) que nos permite entrenar redes neuronales más grandes y profundas por más tiempo sin sobreajustar.
Y la innovación de la red continua continuó a un ritmo vertiginoso, casi todos los métodos que utilizan ReLU (o alguna modificación como PReLU de Microsoft Research), abandono y capacitación puramente supervisada (SGD + Momentum, posiblemente algunas técnicas de tasa de aprendizaje adaptativo como RMSProp o ADAGrad )
Por lo tanto, a partir de ahora, muchas de las redes de alto rendimiento parecen ser de naturaleza puramente supervisada. Eso no quiere decir que el entrenamiento previo sin supervisión o el uso de técnicas sin supervisión pueden no ser importantes en el futuro. Pero algunas redes increíblemente profundas han sido entrenadas, han igualado o superado el rendimiento a nivel humano en conjuntos de datos muy ricos, solo usando entrenamiento supervisado. De hecho, creo que la última presentación de Microsoft Research para el concurso ImageNet 2015 tenía 150 capas. Eso no es un error tipográfico. 150
Si desea utilizar el entrenamiento previo sin supervisión para redes de convivencia, creo que sería mejor encontrar una tarea en la que el entrenamiento supervisado "estándar" de redes de convivencia no funcione tan bien e intente el entrenamiento previo sin supervisión.
A diferencia del modelado en lenguaje natural, parece ser difícil encontrar una tarea sin supervisión que ayude a una tarea supervisada correspondiente cuando se trata de datos de imágenes. Pero si mira lo suficiente en Internet, verá que algunos de los pioneros del aprendizaje profundo (Yoshua Bengio, Yann LeCun, por nombrar algunos) hablan sobre lo importante que creen que es y será el aprendizaje no supervisado.
Como se puede entender a partir de las respuestas anteriores, el pre-entrenamiento fue 'diseñado' cuando sucedieron múltiples cosas. Sin embargo, quiero destilar mi comprensión al respecto:
Como puede ver, el entrenamiento previo cambió de forma a preprocesamiento e inicialización de pesos, pero permaneció en funcionamiento y se volvió más elegante.
Como nota final, el aprendizaje automático está muy de moda. Estoy personalmente apostando como Andrew Ng a que el aprendizaje no supervisado y autodidacta será dominante en el futuro, así que no hagas de esto una religión :)
fuente
Hay algunos documentos pero no tanto como autoencoders o RBM. Creo que la razón es la línea de tiempo de NN. RBM apilado y autoencoder se introducen en 2006 y 2007 , respectivamente. Después del empleo de ReLU en 2009, el aprendizaje no supervisado se abandona parcialmente (cuando hay suficientes datos para aprender en el aprendizaje supervisado directo). A pesar de que Convolution net (o LeNet) se inventó en 1989 , no pudo entrenarse como estructura profunda hasta 2012, que es después de la popularización del aprendizaje supervisado directo con ReLU. Entonces, los investigadores, supongo, lo han entrenado principalmente mediante el aprendizaje directo supervisado.
fuente