Recién comencé a estudiar sobre estadísticas y modelos. Actualmente, entiendo que usamos MLE para estimar los mejores parámetros para un modelo. Sin embargo, cuando trato de entender cómo funcionan las redes neuronales, parece que comúnmente usan otro enfoque para estimar los parámetros. ¿Por qué no usamos MLE o es posible usar MLE?
En problemas de clasificación, maximizar la probabilidad es la forma más común de entrenar una red neuronal (modelos supervisados y no supervisados).
En la práctica, generalmente minimizamos la probabilidad logarítmica negativa (MLE equivalente). La única restricción para usar la probabilidad de registro negativa es tener una capa de salida que se pueda interpretar como una distribución de probabilidad. Una capa de salida softmax se usa comúnmente para hacerlo. Tenga en cuenta que en la comunidad de redes neuronales, la probabilidad logarítmica negativa a veces se denomina entropía cruzada. Por supuesto, se pueden agregar términos de regularización (y a veces se pueden interpretar como distribuciones anteriores sobre los parámetros, en ese caso estamos buscando el máximo a posteriori ( MAP )).
fuente