Preguntas etiquetadas con gradient-descent

23
Descenso coordinado vs gradiente

Me preguntaba cuáles son los diferentes casos de uso para los dos algoritmos, Descenso de coordenadas y Descenso de gradiente . Sé que el descenso coordinado tiene problemas con las funciones no uniformes, pero se usa en algoritmos populares como SVM y LASSO. Sin embargo, creo que el descenso de...

21
Desde la regla de Perceptron hasta el Descenso de gradiente: ¿en qué se diferencian los Perceptrones con una función de activación sigmoidea de la Regresión logística?

Básicamente, mi pregunta es que en los perceptrones multicapa, los perceptrones se usan con una función de activación sigmoidea. Para que en la regla de actualización se calcule comoy^y^\hat{y} y^= 11 + exp( - wTXyo)y^=11+exp⁡(-wTXyo)\hat{y} = \frac{1}{1+\exp(-\mathbf{w}^T\mathbf{x}_i)} ¿En qué...

15
¿Cómo podría el descenso de gradiente estocástico ahorrar tiempo en comparación con el descenso de gradiente estándar?

Descenso de gradiente estándar calcularía el gradiente para todo el conjunto de datos de entrenamiento. for i in range(nb_epochs): params_grad = evaluate_gradient(loss_function, data, params) params = params - learning_rate * params_grad Para un número predefinido de épocas, primero calculamos...

14
¿Cómo puede quedar atrapado en una silla de montar?

Actualmente estoy un poco desconcertado por cómo el descenso de gradiente de mini lotes puede quedar atrapado en un punto de silla de montar. La solución puede ser demasiado trivial que no la entiendo. Obtiene una nueva muestra cada época, y calcula un nuevo error basado en un nuevo lote, por lo...