La mayoría de las otras respuestas se centran en el ejemplo de clases desequilibradas. Si, esto es importante. Sin embargo, sostengo que la precisión es problemática incluso con clases equilibradas.
Frank Harrell ha escrito sobre esto en su blog: Clasificación versus predicción y daño causado por la precisión de la clasificación y otras reglas de puntuación de precisión incorrecta discontinua .
Esencialmente, su argumento es que el componente estadístico de su ejercicio termina cuando genera una probabilidad para cada clase de su nueva muestra. Mapeo de estas probabilidades predichas (p^, 1 -p^) a una clasificación de 0-1, por la elección de un umbral más allá del cual se clasifica como una nueva observación 1 vs 0 no es parte de las estadísticas más. Es parte del componente de decisión . Y aquí, necesita el resultado probabilístico de su modelo, pero también consideraciones como:
- ¿Cuáles son las consecuencias de decidir tratar una nueva observación como clase 1 vs. 0? ¿Entonces envío un correo de marketing barato a todos los 1s? ¿O aplico un tratamiento invasivo contra el cáncer con grandes efectos secundarios?
- ¿Cuáles son las consecuencias de tratar un "verdadero" 0 como 1 y viceversa? ¿Voy a marcar a un cliente? ¿Someter a alguien a un tratamiento médico innecesario?
- ¿Son mis "clases" realmente discretas? ¿O hay realmente un continuo (por ejemplo, presión arterial), donde los umbrales clínicos son en realidad solo atajos cognitivos? Si es así, ¿cuánto más allá de un umbral es el caso que estoy "clasificando" en este momento?
- ¿O una probabilidad baja pero positiva de ser clase 1 en realidad significa "obtener más datos", "ejecutar otra prueba"?
Dependiendo de las consecuencias de su decisión, utilizará un umbral diferente para tomar la decisión. Si la acción es una cirugía invasiva, necesitará una probabilidad mucho mayor para su clasificación del paciente como que padece algo que si la acción es recomendar dos aspirinas. O incluso podría tener tres decisiones diferentes, aunque solo hay dos clases (enfermo vs. saludable): "vete a casa y no te preocupes" vs. "realiza otra prueba porque la que tenemos no es concluyente" vs. "opera de inmediato" .
La forma correcta de evaluar probabilidades predichas ( p^, 1 - p^) es no compararlos con un umbral, asignarlos a ( 0 , 1 ) basado en el umbral y luego evaluar la transformada ( 0 , 1 ) la clasificación. En cambio, uno debe usar reglas de puntuación adecuadas . Estas son funciones de pérdida que mapean las probabilidades predichas y los resultados observados correspondientes a los valores de pérdida, que las probabilidades verdaderas minimizan en expectativa ( p , 1 - p ) . La idea es que tomemos el promedio sobre la regla de puntuación evaluada en múltiples (mejores: muchos) resultados observados y las probabilidades de pertenencia a la clase predichas correspondientes, como una estimación de la expectativa de la regla de puntuación.
Tenga en cuenta que "adecuado" aquí tiene un significado definido con precisión: hay reglas de puntuación inadecuadas , así como reglas de puntuación adecuadas y, finalmente, reglas de puntuación estrictamente adecuadas . Las reglas de puntuación como tales son funciones de pérdida de densidades predictivas y resultados. Las reglas de puntuación adecuadas son reglas de puntuación que se minimizan en expectativa si la densidad predictiva es la densidad verdadera. Las reglas de puntuación estrictamente adecuadas son reglas de puntuación que solo se minimizan en expectativa si la densidad predictiva es la densidad verdadera.
Como señala Frank Harrell , la precisión es una regla de puntuación incorrecta. (Más precisamente, la precisión ni siquiera es una regla de puntuación en absoluto : vea mi respuesta a ¿Es la precisión una regla de puntuación incorrecta en una configuración de clasificación binaria? ) Esto se puede ver, por ejemplo, si no tenemos predictores y solo un cambio de Una moneda injusta con probabilidades ( 0.6 , 0.4 ) . La precisión se maximiza si clasificamos todo como la primera clase e ignoramos por completo la probabilidad del 40% de que cualquier resultado pueda estar en la segunda clase. (Aquí vemos que la precisión es problemática incluso para clases equilibradas). Las reglas de puntuación adecuadas preferirán un ( 0.6 , 0.4 ) predicción a la( 1 , 0 ) en expectativa. En particular, la precisión es discontinua en el umbral: mover el umbral un poquito puede hacer que una (o varias) predicciones cambien las clases y cambien la precisión completa en una cantidad discreta. Esto tiene poco sentido.
Se puede encontrar más información en las dos publicaciones de blog de Frank vinculadas anteriormente, así como en el Capítulo 10 de las Estrategias de modelado de regresión de Frank Harrell .
(Esto se descarta descaradamente de una respuesta anterior mía ).
EDITAR. Mi respuesta al Ejemplo cuando el uso de la precisión como medida de resultado conducirá a una conclusión errónea da un ejemplo ilustrativo donde la maximización de la precisión puede conducir a decisiones equivocadas incluso para clases equilibradas .
Cuando usamos la precisión, asignamos el mismo costo a los falsos positivos y falsos negativos. Cuando ese conjunto de datos está desequilibrado, digamos que tiene el 99% de las instancias en una clase y solo el 1% en la otra, hay una excelente manera de reducir el costo. Predecir que cada instancia pertenece a la clase mayoritaria, obtener una precisión del 99% e irse a casa temprano.
El problema comienza cuando los costos reales que asignamos a cada error no son iguales. Si tratamos una enfermedad rara pero mortal, el costo de no diagnosticar la enfermedad de una persona enferma es mucho mayor que el costo de enviar a una persona sana a más pruebas.
En general, no existe una mejor medida general. La mejor medida se deriva de sus necesidades. En cierto sentido, no es una pregunta de aprendizaje automático, sino una pregunta de negocios. Es común que dos personas usen el mismo conjunto de datos, pero elegirán métricas diferentes debido a objetivos diferentes.
La precisión es una gran métrica. En realidad, la mayoría de las métricas son geniales y me gusta evaluar muchas métricas. Sin embargo, en algún momento deberá decidir entre usar el modelo A o B. Allí debe usar una única métrica que mejor se adapte a sus necesidades.
Para obtener crédito adicional, elija esta métrica antes del análisis, para que no se distraiga al tomar la decisión.
fuente
El problema con la precisión
La precisión estándar se define como la relación entre las clasificaciones correctas y el número de clasificaciones realizadas.
Por lo tanto, es una medida general sobre todas las clases y, como veremos en breve, no es una buena medida distinguir un oráculo aparte de una prueba útil real. Un oráculo es una función de clasificación que devuelve una suposición aleatoria para cada muestra. Del mismo modo, queremos poder calificar el rendimiento de clasificación de nuestra función de clasificación. La precisión \ textit {puede} ser una medida útil si tenemos la misma cantidad de muestras por clase pero si tenemos un conjunto desequilibrado de precisión de muestras no es útil en absoluto. Aún más, una prueba puede tener una alta precisión, pero en realidad funciona peor que una prueba con una precisión menor.
Si tenemos una distribución de muestras tal que el 90 \% de las muestras pertenecen a la claseUNA , 5 \% a si y otro 5 \% a C , la siguiente función de clasificación tendrá una precisión de 0.9 :
Sin embargo, es obvio dado que sabemos cómoclassify obras que este no puede decir las clases separadas en absoluto. Del mismo modo, podemos construir una función de clasificación
que tiene una precisión de0.96⋅0.9+0.02⋅0.05⋅2=0.866 y no siempre predecir
A pero todavía Dado que sabemos cómo classify obras es obvio que no puede decir clases aparte. La precisión en este caso solo nos dice cuán buena es nuestra función de clasificación para adivinar. Esto significa que la precisión no es una buena medida para distinguir un oráculo aparte de una prueba útil.
Precisión por clase
Podemos calcular la precisión individualmente por clase dando a nuestra función de clasificación solo muestras de la misma clase y recordar y contar el número de clasificaciones correctas y clasificaciones incorrectas y luego calcularaccuracy:=correct/(correct+incorrect) . Repetimos esto para cada clase. Si tenemos una función de clasificación que puede reconocer con precisión la clase
A pero generará una suposición aleatoria para las otras clases, entonces esto resulta en una precisión de 1.00 para
A y una precisión de 0.33 para las otras clases Esto ya nos proporciona una forma mucho mejor de juzgar el desempeño de nuestra función de clasificación. Un oráculo que siempre adivina la misma clase producirá una precisión por clase de 1.00 para esa clase, pero 0.00 para la otra clase. Si nuestra prueba es útil, todas las precisiones por clase deberían ser > 0.5 . De lo contrario, nuestra prueba no es mejor que la casualidad. Sin embargo, la precisión por clase no tiene en cuenta los falsos positivos. Aunque nuestra función de clasificación tiene una precisión del 100 \% para la clase UNA , también habrá falsos positivos para UNA (como una si clasificada erróneamente como UNA ).
Sensibilidad y especificidad
En las pruebas médicas, la sensibilidad se define como la relación entre las personas identificadas correctamente como portadoras de la enfermedad y la cantidad de personas que realmente la padecen. La especificidad se define como la relación entre las personas identificadas correctamente como saludables y la cantidad de personas que realmente son saludables. La cantidad de personas que realmente tienen la enfermedad es la cantidad de resultados positivos verdaderos de la prueba más la cantidad de resultados negativos falsos de la prueba. La cantidad de personas realmente saludables es la cantidad de resultados negativos verdaderos de la prueba más la cantidad de resultados positivos falsos de la prueba.
Clasificación binaria
En problemas de clasificación binarios hay dos clasesPAGS y norte . Tnorte refiere al número de muestras que se identificaron correctamente como pertenecientes a la clase norte y Fnorte refiere al número de muestras que se identificaron falsamente como pertenecientes a la clase norte . En este caso, la sensibilidad y la especificidad se definen de la siguiente manera:
Sin embargo, observamos ques e n s i t i v i t yα=specificityβ y specificityα=sensitivityβ . Esto significa que si solo tenemos dos clases, no necesitamos sensibilidad y especificidad por clase.
Clasificación N-Ary
La sensibilidad y especificidad por clase no es útil si solo tenemos dos clases, pero podemos extenderla a varias clases. La sensibilidad y especificidad se define como:
Introduciendo confianza
fuente
Clases desequilibradas en su conjunto de datos
Para ser breve: imagine que el 99% de una clase (digamos manzanas) y el 1% de otra clase está en su conjunto de datos (digamos plátanos). Mi algoritmo super duper obtiene una asombrosa precisión del 99% para este conjunto de datos, échale un vistazo:
return "it's an apple"
Tendrá razón el 99% del tiempo y, por lo tanto, obtendrá una precisión del 99%. ¿Puedo vender mi algoritmo?
Solución: no use una medida absoluta (precisión) sino una medida relativa a cada clase (hay muchas por ahí, como ROC AUC)
fuente
La respuesta de DaL es exactamente esto. Lo ilustraré con un ejemplo muy simple sobre ... la venta de huevos.
Si su clasificador no se equivoca, obtiene los ingresos máximos que puede esperar. Si no es perfecto, entonces:
Entonces, la precisión de su clasificador es exactamente qué tan cerca está de los ingresos máximos. Es la medida perfecta.
Si el clasificador se trata de encontrar documentos relevantes en una base de datos, por ejemplo, puede comparar "cuánto" perder el tiempo leyendo un documento irrelevante se compara con encontrar un documento relevante.
fuente
La precisión de clasificación es el número de predicciones correctas dividido por el número total de predicciones.
La precisión puede ser engañosa. Por ejemplo, en un problema donde hay un gran desequilibrio de clase, un modelo puede predecir el valor de la clase mayoritaria para todas las predicciones y lograr una alta precisión de clasificación. Por lo tanto, se necesitan más medidas de rendimiento, como el puntaje F1 y el puntaje Brier.
fuente
Como otros han señalado, otro problema con la precisión es una indiferencia implícita al precio del fracaso, es decir, una suposición de que todas las clasificaciones erróneas son iguales. En la práctica, no lo son, y los costos de obtener una clasificación incorrecta dependen en gran medida del sujeto y es posible que prefiera minimizar un tipo particular de error que maximizar la precisión.
fuente