Statistics.com publicó un problema de la semana: la tasa de fraude de seguros residenciales es del 10% (una de cada diez reclamaciones es fraudulenta). Un consultor ha propuesto un sistema de aprendizaje automático para revisar las reclamaciones y clasificarlas como fraude o no fraude. El sistema es 90% efectivo para detectar reclamos fraudulentos, pero solo 80% efectivo para clasificar correctamente los reclamos que no son de fraude (erróneamente etiqueta a uno de cada cinco como "fraude"). Si el sistema clasifica un reclamo como fraudulento, ¿cuál es la probabilidad de que realmente sea fraudulento?
https://www.statistics.com/news/231/192/Conditional-Probability/?showtemplate=true
Mi compañero y yo se nos ocurrió la misma respuesta de forma independiente y no coincide con la solución publicada.
Nuestra solución:
(.9 * .1) / ((. 9 * .1) + (. 2 * .9)) = 1/3
Su solución:
Este es un problema de probabilidad condicional. (También es un problema bayesiano, pero la aplicación de la fórmula en la regla de Bayes solo ayuda a ocultar lo que está sucediendo). Considere 100 afirmaciones. 10 serán fraudulentas, y el sistema etiquetará correctamente a 9 de ellas como "fraude". 90 reclamaciones estarán bien, pero el sistema clasificará incorrectamente 72 (80%) como "fraude". Por lo tanto, un total de 81 reclamaciones han sido etiquetadas como fraudulentas, pero solo 9 de ellas, el 11%, son realmente fraudulentas.
Quien tenia razon
fuente
Respuestas:
Creo que usted y su colega están en lo correcto. Statistics.com tiene la línea correcta de pensamiento, pero comete un simple error. De los 90 reclamos "OK", esperamos que el 20% de ellos sean clasificados incorrectamente como fraude, no el 80%. El 20% de 90 es 18, lo que lleva a 9 reclamos identificados correctamente y 18 reclamos incorrectos, con una proporción de 1/3, exactamente lo que arroja la regla de Bayes.
fuente
Estás en lo correcto. La solución que publicó el sitio web se basa en una lectura errónea del problema, ya que el 80% de las reclamaciones no fraudulentas se clasifican como fraudulentas en lugar del 20% dado.
fuente