Coeficiente de correlación de Matthews () es una medida para medir la calidad de una clasificación binaria ([Wikipedia] [1]). La formulación se da para la clasificación binaria utilizando verdaderos positivos (), falsos positivos (), falsos negativos () y verdaderos negativos () valores como se indica a continuación:
Tengo un caso en el que necesito clasificar tres clases diferentes, , y . ¿Puedo aplicar la formulación anterior para calcular para caso de clases múltiples después de calcular , , y valores para cada clase como se muestra a continuación?
Respuestas:
Sí, en general, puedes. Este enfoque que desea utilizar a veces se denomina "Micro-Promedio": primero, sume todos
TN
s,FP
s, etc. para cada clase y luego calcule la estadística de interés.Otra forma de combinar las estadísticas para clases individuales es usar el llamado "Macro-Promedio": aquí primero calcula las estadísticas para clases individuales (A vs no A, B vs no B, etc.), y luego calcula el promedio de ellos.
Puede echar un vistazo aquí para obtener algunos detalles adicionales. La página habla de precisión y recuperación, pero creo que se aplica al coeficiente de Matthew, así como a otras estadísticas basadas en tablas de contingencia.
fuente
La técnica de promedio macro funciona bien para precisión, sensibilidad y especificidad. Pero cuando lo probé para MCC no dio los resultados adecuados. Para obtener más detalles sobre los cálculos de MCC multiclase, consulte:
El siguiente código funcionó para mí:
fuente
MCC se puede utilizar para Wikipedia en clasificación binaria y multiclase y se implementa en sci-kit learn para etiquetas binarias y multiclase.
fuente
MCC está diseñado para la clasificación binaria.
Si desea obtener una medida similar de un clasificador, puede probar el Kappa de Cohen, que se puede aplicar a una matriz de confusión de varias clases.
fuente