¿Es necesaria la Formación de Redes Profundas de Greedy Layer-Wise para un entrenamiento exitoso o es suficiente el descenso de gradiente estocástico?

Respuestas:

8

El entrenamiento previo ya no es necesario . Su propósito era encontrar una buena inicialización para los pesos de la red a fin de facilitar la convergencia cuando se empleaba un gran número de capas. Hoy en día, tenemos ReLU , abandono y normalización por lotes , todo lo cual contribuye a resolver el problema del entrenamiento de redes neuronales profundas. Citando de la publicación de reddit vinculada anteriormente (por el ganador del desafío Galaxy Zoo Kaggle):

Diría que la "era de pre-entrenamiento", que comenzó alrededor de 2006, terminó a principios de los años 10 cuando las personas comenzaron a usar unidades lineales rectificadas (ReLU), y luego abandonaron, y descubrieron que el pre-entrenamiento ya no era beneficioso para esto. tipo de redes.

Del documento de ReLU (vinculado anteriormente):

Las redes rectificadoras profundas pueden alcanzar su mejor rendimiento sin requerir ningún entrenamiento previo sin supervisión

Dicho esto, ya no es necesario , pero aún puede mejorar el rendimiento en algunos casos donde hay demasiadas muestras sin supervisión (sin etiqueta), como se ve en este documento .

rcpinto
fuente
Esta es una buena respuesta, pero creo que sería aún mejor si pudieras encontrar una referencia académica, en lugar de un hilo de Reddit.
Sycorax dice Reinstate Monica el
¿No son suficientes los 3 anteriores? Incluso está escrito en el resumen del primero.
rcpinto
La revisión es exactamente el tipo de apoyo para la afirmación de que "la capacitación previa ya no es necesaria" que esperaba. Gracias por contribuir a nuestro sitio web.
Sycorax dice Reinstate Monica el
1
Aquí hay una pregunta relacionada: ¿el pre-entrenamiento está haciendo lo mismo que el abandono (en algún sentido)?
Esta respuesta es muy incorrecta o, en el mejor de los casos, engañosa; BN, Dropout, etc. cumplen funciones en gran medida ortogonales al preentrenamiento, donde este último permite el aprendizaje de características transferibles . Ejemplo: eliminación de ruido, reducción de dimensionalidad, reconstrucción de datos faltantes codificador de autoencoder de series de tiempo colocado en la entrada antes de una red neuronal clasificador; el clasificador aprende características discriminatorias , muy distintas de las del autoencoder.
OverLordGoldDragon