Explicación intuitiva de logloss

En varias competiciones de kaggle, la puntuación se basó en "logloss". Esto se relaciona con el error de clasificación.

Aquí hay una respuesta técnica, pero estoy buscando una respuesta intuitiva. Realmente me gustaron las respuestas a esta pregunta sobre la distancia de Mahalanobis, pero PCA no es logloss.

Puedo usar el valor que saca mi software de clasificación, pero realmente no lo entiendo. ¿Por qué lo usamos en lugar de tasas verdaderas / falsas positivas / negativas? ¿Me pueden ayudar para que pueda explicar esto a mi abuela o un novato en el campo?

También me gusta y estoy de acuerdo con la cita:

realmente no entiendes algo a menos que puedas explicárselo a tu abuela
- Albert Einstein

Traté de responder esto por mi cuenta antes de publicar aquí.

Los enlaces que no encontré intuitivos o realmente útiles incluyen:

Estos son informativos y precisos. Están destinados a una audiencia técnica. No hacen un dibujo simple ni dan ejemplos simples y accesibles. No están escritos para mi abuela.

interpretation intuition loss-functions Estudiante
fuente

no proporcionó un enlace a su respuesta técnica

bdeonovic

quora.com/…

Ehsan M. Kermani

@ EhsanM.Kermani - No encontré aquellos intuitivos como los de Mahalanobis a los que hice referencia.

EngrStudent

la entrada en el sitio web de kaggle da una explicación bastante concisa de logloss

bdeonovic

Encontré este enlace: exegetic.biz/blog/2015/12/making-sense-logarithmic-loss . Podría ayudar.

Deolu A

Respuestas:

Logloss es el logaritmo del producto de todas las probabilidades. Supongamos que Alice predijo:

con probabilidad 0.2, John matará a Jack
con probabilidad 0.001, Mary se casará con John
con probabilidad 0.01, Bill es un asesino.

Resultó que Mary no se casó con John, Bill no es un asesino, pero John mató a Jack. El producto de las probabilidades, según Alice, es 0.2 * 0.999 * 0.99 = 0.197802

Bob predijo:

con probabilidad 0.5, John matará a Jack
con probabilidad 0.5, Mary se casará con John
con probabilidad 0.5, Bill es un asesino.

El producto es 0.5 * 0.5 * 0.5 = 0.125.

Alice es mejor predictor que Bob.

usuario31264
fuente

¿Por qué funciona el "producto de todas las probabilidades"? Esto suena como un pariente de maximización de expectativas.

EngrStudent

¿Necesitas una prueba formal? Está en la "respuesta técnica" mencionada por el iniciador del tema. ¿Necesita una "abuela" informal por qué? Usted dice: supongamos que este tipo dio predicciones correctas. ¿Cuál es la probabilidad de que todo suceda como realmente sucedió? Este es el producto de las probabilidades.

user31264

"producto de probabilidades" no es "abuela". El registro del producto de probabilidades es la suma de las probabilidades de registro, que utilizan en la maximización de la expectativa y llaman "expectativa". Creo que también está codificado en KL divergencia. ... Creo que en la charla de la abuela se podría decir "" lo más probable "= probabilidad general más alta de múltiples eventos. Hay dos que se vuelven" más altos ": 1) maximizar la probabilidad combinada o 2) minimizar la probabilidad combinada negativa. La mayoría de las máquinas aprender le gusta el "descenso de gradiente" o minimizar la maldad. La pérdida de registro es la probabilidad negativa escalada por el tamaño de la muestra, y se minimiza.

EngrStudent

Aquí enlace dicen "exp (-loss) es la probabilidad promedio de predicción correcta".

EngrStudent

Me gustó el obispo ref aquí . Es la ecuación 4.108 y es la función de error de entropía cruzada.

EngrStudent