Preguntas etiquetadas con sgd

15
¿Cómo podría el descenso de gradiente estocástico ahorrar tiempo en comparación con el descenso de gradiente estándar?

Descenso de gradiente estándar calcularía el gradiente para todo el conjunto de datos de entrenamiento. for i in range(nb_epochs): params_grad = evaluate_gradient(loss_function, data, params) params = params - learning_rate * params_grad Para un número predefinido de épocas, primero calculamos...

14
¿Cómo puede quedar atrapado en una silla de montar?

Actualmente estoy un poco desconcertado por cómo el descenso de gradiente de mini lotes puede quedar atrapado en un punto de silla de montar. La solución puede ser demasiado trivial que no la entiendo. Obtiene una nueva muestra cada época, y calcula un nuevo error basado en un nuevo lote, por lo...

12
RMSProp y Adam vs SGD

Estoy realizando experimentos en el conjunto de validación EMNIST usando redes con RMSProp, Adam y SGD. Estoy logrando un 87% de precisión con SGD (tasa de aprendizaje de 0.1) y abandono (0.1 problema de abandono), así como la regularización L2 (penalización 1e-05). Al probar la misma configuración...