¿Statistics.com publicó la respuesta incorrecta?

28

Statistics.com publicó un problema de la semana: la tasa de fraude de seguros residenciales es del 10% (una de cada diez reclamaciones es fraudulenta). Un consultor ha propuesto un sistema de aprendizaje automático para revisar las reclamaciones y clasificarlas como fraude o no fraude. El sistema es 90% efectivo para detectar reclamos fraudulentos, pero solo 80% efectivo para clasificar correctamente los reclamos que no son de fraude (erróneamente etiqueta a uno de cada cinco como "fraude"). Si el sistema clasifica un reclamo como fraudulento, ¿cuál es la probabilidad de que realmente sea fraudulento?

https://www.statistics.com/news/231/192/Conditional-Probability/?showtemplate=true

Mi compañero y yo se nos ocurrió la misma respuesta de forma independiente y no coincide con la solución publicada.

Nuestra solución:

(.9 * .1) / ((. 9 * .1) + (. 2 * .9)) = 1/3

Su solución:

Este es un problema de probabilidad condicional. (También es un problema bayesiano, pero la aplicación de la fórmula en la regla de Bayes solo ayuda a ocultar lo que está sucediendo). Considere 100 afirmaciones. 10 serán fraudulentas, y el sistema etiquetará correctamente a 9 de ellas como "fraude". 90 reclamaciones estarán bien, pero el sistema clasificará incorrectamente 72 (80%) como "fraude". Por lo tanto, un total de 81 reclamaciones han sido etiquetadas como fraudulentas, pero solo 9 de ellas, el 11%, son realmente fraudulentas.

Quien tenia razon

ChrisG
fuente
44
Parece que corrigen la solución en su sitio web para estar en línea con lo que ha calculado
nop
2
@nope, corrigió silenciosamente la respuesta. astuto
Aksakal
Trivia: en la toma de decisiones conductuales, este problema a menudo se conoce como el "problema de la mamografía", ya que su presentación habitual es sobre la posibilidad de que una paciente tenga cáncer con una mamografía positiva.
Kodiólogo
"La buena noticia es que nuestro sistema clasifica el 90% del fraude como fraude. La mala noticia es que clasifica el 80% del no fraude como fraude". Tenga en cuenta que el 11% que calculan es solo un poco más alto que la tasa base del 10%. Un modelo de aprendizaje automático donde la tasa de fraude en los casos señalados es solo un 10% más que la tasa base es bastante terrible.
Acumulación
Esto se conoce como la paradoja
BlueRaja - Danny Pflughoeft

Respuestas:

41

Creo que usted y su colega están en lo correcto. Statistics.com tiene la línea correcta de pensamiento, pero comete un simple error. De los 90 reclamos "OK", esperamos que el 20% de ellos sean clasificados incorrectamente como fraude, no el 80%. El 20% de 90 es 18, lo que lleva a 9 reclamos identificados correctamente y 18 reclamos incorrectos, con una proporción de 1/3, exactamente lo que arroja la regla de Bayes.

James Otto
fuente
11

Estás en lo correcto. La solución que publicó el sitio web se basa en una lectura errónea del problema, ya que el 80% de las reclamaciones no fraudulentas se clasifican como fraudulentas en lugar del 20% dado.

Dilip Sarwate
fuente