Esta pregunta me ha intrigado durante mucho tiempo. Entiendo el uso de 'log' para maximizar la probabilidad, por lo que no estoy preguntando sobre 'log'.
Mi pregunta es, dado que maximizar la probabilidad de registro es equivalente a minimizar la "probabilidad de registro negativa" (NLL), ¿por qué inventamos esta NLL? ¿Por qué no usamos la "probabilidad positiva" todo el tiempo? ¿En qué circunstancias se favorece la NLL?
Encontré una pequeña explicación aquí. https://quantivity.wordpress.com/2011/05/23/why-minimize-negative-log-likelihood/ , y parece explicar la equivalencia obvia en profundidad, pero no resuelve mi confusión.
Cualquier explicación será apreciada.
Respuestas:
Esta es una respuesta alternativa : los optimizadores en paquetes estadísticos generalmente funcionan minimizando el resultado de una función. Si su función da el valor de probabilidad primero, es más conveniente usar el logaritmo para disminuir el valor devuelto por la función de probabilidad. Luego, dado que la función de probabilidad logarítmica y de probabilidad tiene la misma tendencia creciente o decreciente, puede minimizar la probabilidad logarítmica negativa para realmente realizar la estimación de probabilidad máxima de la función que está probando. Ver por ejemplo la
nlminb
función en R aquífuente
Los optimizadores suelen minimizar una función, por lo que utilizamos la probabilidad de registro negativa como minimización que es equivalente a maximizar la probabilidad de registro o la probabilidad en sí misma.
Solo para completar, mencionaría que el logaritmo es una función monotónica, por lo que optimizar una función es lo mismo que optimizar el logaritmo de la misma. Hacer la transformación logarítmica de la función de probabilidad hace que sea más fácil de manejar (la multiplicación se convierte en sumas) y esto también es numéricamente más estable. Esto se debe a que la magnitud de las probabilidades puede ser muy pequeña. Hacer una transformación logarítmica convierte estos pequeños números en valores negativos más grandes que una máquina de precisión finita puede manejar mejor.
fuente
Aquí minimizar significa disminuir la distancia de dos distribuciones a su nivel más bajo: la distribución de Bernoulli objetivo y la distribución de resultados generada. Medimos la distancia de dos distribuciones usando la divergencia de Kullback-Leibler (también llamada entropía relativa), y debido a la teoría de los números grandes, minimizar la divergencia de KL equivale a minimizar la entropía cruzada (ya sea entropía cruzada multiclase, ver aquí o clasificación binaria, ver aquí y aquí )
Así
se puede traducir a
Maximizar la probabilidad logarítmica es equivalente a minimizar la distancia entre dos distribuciones, por lo tanto, es equivalente a minimizar la divergencia KL, y luego la entropía cruzada.
Creo que se ha vuelto bastante intuitivo.
fuente
La respuesta es más simple de lo que piensas. Es la convención que llamamos a la función objetivo de optimización una "función de costo" o "función de pérdida" y, por lo tanto, queremos minimizarlos, en lugar de maximizarlos, y por lo tanto, se forma la probabilidad de registro negativa, en lugar de la probabilidad positiva en su palabra. Sin embargo, técnicamente ambos son correctos. Por cierto, si queremos maximizar algo, generalmente lo llamamos "función de utilidad" y, por lo tanto, el objetivo es maximizarlo.
fuente