Preguntas etiquetadas con gradient-descent

¿El error de media cuadrática es siempre convexo en el contexto de las redes neuronales?

Múltiples recursos a los que me referí mencionan que MSE es excelente porque es convexo. Pero no entiendo cómo, especialmente en el contexto de las redes neuronales. Digamos que tenemos lo siguiente: XXX : conjunto de datos de entrenamiento YYY : objetivos ΘΘ\Theta : el conjunto de parámetros...