Preguntas etiquetadas con sgd

101

Descenso de gradiente por lotes versus descenso de gradiente estocástico

Supongamos que tenemos un conjunto de entrenamiento para . Supongamos también que ejecutamos algún tipo de algoritmo de aprendizaje supervisado en el conjunto de entrenamiento. Las hipótesis se representan como . Necesitamos encontrar los parámetros que minimicen la "distancia" entre y ....

optimization gradient-descent sgd

36

¿Quién inventó el descenso gradiente estocástico?

Estoy tratando de entender la historia del descenso de gradiente y el descenso de gradiente estocástico . El descenso del gradiente fue inventado en Cauchy en 1847. Méthode générale pour la résolution des systèmes d'équations simultanées . pp. 536–538 Para obtener más información al respecto,...

references gradient-descent history sgd

25

Para problemas convexos, ¿el gradiente en Descenso de gradiente estocástico (SGD) siempre apunta al valor extremo global?

Dada una función de costo convexo, usando SGD para la optimización, tendremos un gradiente (vector) en un cierto punto durante el proceso de optimización. Mi pregunta es, dado el punto en el convexo, ¿el gradiente solo apunta en la dirección en que la función aumenta / disminuye más rápido, o el...

neural-networks optimization gradient-descent sgd convex

18

¿Cómo afecta el tamaño del lote a la convergencia de SGD y por qué?

He visto conclusiones similares en muchas discusiones, que a medida que el tamaño del minibatch aumenta, la convergencia de SGD en realidad se vuelve más difícil / peor, por ejemplo, este documento y esta respuesta . También he oído hablar de personas que utilizan trucos como pequeñas tasas de...

machine-learning neural-networks optimization gradient-descent sgd

15

¿Cómo podría el descenso de gradiente estocástico ahorrar tiempo en comparación con el descenso de gradiente estándar?

Descenso de gradiente estándar calcularía el gradiente para todo el conjunto de datos de entrenamiento. for i in range(nb_epochs): params_grad = evaluate_gradient(loss_function, data, params) params = params - learning_rate * params_grad Para un número predefinido de épocas, primero calculamos...

machine-learning optimization gradient-descent computational-statistics sgd

14

¿Cómo puede quedar atrapado en una silla de montar?

Actualmente estoy un poco desconcertado por cómo el descenso de gradiente de mini lotes puede quedar atrapado en un punto de silla de montar. La solución puede ser demasiado trivial que no la entiendo. Obtiene una nueva muestra cada época, y calcula un nuevo error basado en un nuevo lote, por lo...

gradient-descent sgd

12

RMSProp y Adam vs SGD

Estoy realizando experimentos en el conjunto de validación EMNIST usando redes con RMSProp, Adam y SGD. Estoy logrando un 87% de precisión con SGD (tasa de aprendizaje de 0.1) y abandono (0.1 problema de abandono), así como la regularización L2 (penalización 1e-05). Al probar la misma configuración...

machine-learning optimization sgd adam

10

Cómo configurar el tamaño de mini lote en SGD en keras

Soy nuevo en Keras y necesito tu ayuda. Estoy entrenando una red neuronal en Keras y mi función de pérdida es la salida cuadrada b / n de la red y el valor objetivo. Quiero optimizar esto usando Gradient Descent. Después de pasar por algunos enlaces en la red, he llegado a saber que generalmente...

neural-networks python gradient-descent keras sgd

10

¿Cuál es la diferencia entre VAE y la propagación estocástica para modelos generativos profundos?

¿Cuál es la diferencia entre la codificación automática Bayes variacional y la retropropagación estocástica para modelos generativos profundos ? ¿La inferencia en ambos métodos conduce a los mismos resultados? No conozco ninguna comparación explícita entre los dos métodos, a pesar de que ambos...

deep-learning inference latent-variable variational-bayes sgd

9

Descenso de gradiente en funciones no convexas

¿Qué situaciones sabemos de dónde se puede mostrar que el descenso de gradiente converge (ya sea a un punto crítico o a un mínimo local / global) para funciones no convexas? Para SGD en funciones no convexas, se ha revisado un tipo de prueba aquí,

gradient-descent gradient sgd non-convex