Cuando se entrena un modelo parametrizado (por ejemplo, para maximizar la probabilidad) a través del descenso de gradiente estocástico en algún conjunto de datos, se supone comúnmente que las muestras de entrenamiento se extraen de la distribución de datos de entrenamiento. Entonces, si el objetivo...