En varias competiciones de kaggle, la puntuación se basó en "logloss". Esto se relaciona con el error de clasificación.
Aquí hay una respuesta técnica, pero estoy buscando una respuesta intuitiva. Realmente me gustaron las respuestas a esta pregunta sobre la distancia de Mahalanobis, pero PCA no es logloss.
Puedo usar el valor que saca mi software de clasificación, pero realmente no lo entiendo. ¿Por qué lo usamos en lugar de tasas verdaderas / falsas positivas / negativas? ¿Me pueden ayudar para que pueda explicar esto a mi abuela o un novato en el campo?
También me gusta y estoy de acuerdo con la cita:
realmente no entiendes algo a menos que puedas explicárselo a tu abuela
- Albert Einstein
Traté de responder esto por mi cuenta antes de publicar aquí.
Los enlaces que no encontré intuitivos o realmente útiles incluyen:
- http://www.r-bloggers.com/making-sense-of-logarithmic-loss/
- https://www.quora.com/What-is-an-intuitive-explanation-for-the-log-loss-function
- https://lingpipe-blog.com/2010/11/02/evaluating-with-probabilistic-truth-log-loss-vs-0-1-loss/
- https://www.kaggle.com/wiki/LogarithmicLoss
Estos son informativos y precisos. Están destinados a una audiencia técnica. No hacen un dibujo simple ni dan ejemplos simples y accesibles. No están escritos para mi abuela.
fuente
Respuestas:
Logloss es el logaritmo del producto de todas las probabilidades. Supongamos que Alice predijo:
Resultó que Mary no se casó con John, Bill no es un asesino, pero John mató a Jack. El producto de las probabilidades, según Alice, es 0.2 * 0.999 * 0.99 = 0.197802
Bob predijo:
El producto es 0.5 * 0.5 * 0.5 = 0.125.
Alice es mejor predictor que Bob.
fuente