Actualmente estoy trabajando en implementar el Descenso de gradiente estocástico SGD, para redes neuronales que usan propagación hacia atrás, y aunque entiendo su propósito, tengo algunas preguntas sobre cómo elegir valores para la tasa de aprendizaje. ¿La tasa de aprendizaje está relacionada con...