Estoy realizando experimentos en el conjunto de validación EMNIST usando redes con RMSProp, Adam y SGD. Estoy logrando un 87% de precisión con SGD (tasa de aprendizaje de 0.1) y abandono (0.1 problema de abandono), así como la regularización L2 (penalización 1e-05). Al probar la misma configuración exacta con RMSProp y Adam, así como la tasa de aprendizaje inicial de 0.001, estoy logrando una precisión del 85% y una curva de entrenamiento significativamente menos suave. No sé cómo explicar este comportamiento. ¿Cuál puede ser la razón detrás de la falta de suavidad en la curva de entrenamiento y la menor precisión y las mayores tasas de error logradas?
12
Respuestas:
Después de investigar algunos artículos en línea y la documentación de Keras, se sugiere que el optimizador RMSProp se recomiende para redes neuronales recurrentes. https://github.com/keras-team/keras/blob/master/keras/optimizers.py#L209
El Descenso de gradiente estocástico parece aprovechar su velocidad de aprendizaje y el impulso entre cada lote para optimizar los pesos del modelo en función de la información de la función de pérdida en mi caso es 'categorical_crossentropy'.
Sugiero http://ruder.io/optimizing-gradient-descent/index.html para obtener información adicional sobre algoritmos de optimización.
fuente