En SGD, una época sería la presentación completa de los datos de entrenamiento, y luego habría N actualizaciones de peso por época (si hay N ejemplos de datos en el conjunto de entrenamiento).
Si ahora hacemos mini lotes, digamos en lotes de 20. ¿Una época ahora consiste en actualizaciones de peso N / 20, o una época se 'alarga' en 20 para que contenga la misma cantidad de actualizaciones de peso?
Pregunto esto ya que en un par de artículos el aprendizaje parece ser demasiado rápido para la cantidad de épocas indicadas.
Respuestas:
En la terminología de la red neuronal:
Ejemplo: si tiene 1000 ejemplos de entrenamiento y el tamaño de su lote es 500, se necesitarán 2 iteraciones para completar 1 época.
fuente
La respuesta de Franck no es correcta. Se necesita algo de instinto para decir esto porque tiene muchas más repeticiones que yo y muchas personas ya votaron por él.
Epoch es una palabra que significa un solo paso a través de un conjunto de entrenamiento, no todos los ejemplos de entrenamiento.
Entonces sí. Si hacemos mini lotes GD en lugar de un lote GD, digamos en lotes de 20, una época ahora consiste en actualizaciones de peso N / 20. N es el número total de muestras.
Para ser detallado, en un descenso de gradiente por lotes, un solo paso a través del entrenamiento le permite tomar solo un paso de descenso de gradiente. Con el descenso de gradiente mini-lote (tamaño de lote = 5,000), una sola pasada a través del conjunto de entrenamiento, que es una época, le permite tomar 5,000 pasos de descenso de gradiente.
fuente