Cuando las clases desequilibradas de sobremuestreo o submuestreo, ¿la precisión de maximización difiere de la minimización de los costos de clasificación errónea?

14

En primer lugar, me gustaría describir algunos diseños comunes que usan los libros de minería de datos que explican cómo tratar con conjuntos de datos no balanceados . Por lo general, la sección principal se denomina Conjuntos de datos no balanceados y cubren estas dos subsecciones: Clasificación sensible al costo y Técnicas de muestreo.

Parece que frente a un problema con una clase rara puede realizar tanto la clasificación como el muestreo sensibles al costo. En cambio, creo que uno debería aplicar técnicas sensibles al costo si la clase rara también es el objetivo de la clasificación y una clasificación errónea de un registro de esa clase es costosa.

Por otro lado, las técnicas de muestreo, como el sobremuestreo y el submuestreo, son útiles si el objetivo de la clasificación es una buena precisión en general, sin centrarse en una clase en particular.

Esta creencia proviene de la lógica de MetaCost que es una forma general de hacer que un clasificador sea sensible al costo: si uno quiere hacer que un clasificador sea sensible al costo para penalizar un error de clasificación errónea de la clase rara, debe sobremuestrear la otra clase . En términos generales, el clasificador intenta adaptarse a la otra clase y se vuelve específico para la clase rara.

Esto es lo opuesto al sobremuestreo de la clase rara, esa es la forma generalmente sugerida de tratar este problema. El sobremuestreo de la clase rara o el submuestreo de la otra clase es útil para mejorar la precisión general.

Por favor, sería genial si confirmaras mis pensamientos.

Dicho esto, la pregunta común que enfrenta un conjunto de datos desequilibrado es:

¿Debo intentar obtener un conjunto de datos que cuente tantos registros raros como otros?

Mi respuesta sería, en caso de que esté buscando precisión: OK. Puede realizarlo descubriendo ejemplos de clases más raros o eliminando algunos registros de la otra clase.

En caso de que se esté enfocando en la clase rara, con una técnica sensible al costo, respondería: solo puede encontrar un ejemplo de clase más raro, pero no debe eliminar los registros de la otra clase. En el último caso, no podrá permitir que el clasificador se adapte a la otra clase, y el error de clasificación de clase rara podría aumentar.

¿Qué responderías?

Simone
fuente
2
"Descubrir" nuevos registros para clases raras podría ser imposible. Supongo que los datos están estructurados de esta manera porque es costoso (bioinformática) o arriesgado (préstamo bancario) crear eventos de clase más raros.
steffen
Por supuesto, pero es una solución común propuesta. Sin embargo, es cierto que si puede encontrar ejemplos de clases más raros, también podría encontrar otros ejemplos. Porque el conjunto de entrenamiento debe ser una muestra representativa del universo récord. Entonces, me parece que parece realizar un muestreo excesivo.
Simone

Respuestas:

9

Es una buena pregunta Personalmente, mi respuesta sería que nunca tiene sentido tirar datos (a menos que sea por razones computacionales), ya que cuantos más datos tenga, mejor podrá ser su modelo del mundo. Por lo tanto, sugeriría que modificar la función de costo de manera apropiada para su tarea debería ser suficiente. Por ejemplo, si está interesado en una clase rara en particular, puede hacer que las clasificaciones erróneas de esta clase solo sean más caras; si está interesado en una medida equilibrada, algo como el índice de error equilibrado (el promedio de los errores en cada clase) o el coeficiente de correlación Matthews es apropiado; si solo le interesa el error de clasificación general, la pérdida tradicional de 0-1 .

Un enfoque moderno del problema es utilizar el aprendizaje activo. Por ejemplo, Hospedales et al (2011) "Encontrar clases raras: Aprendizaje activo con modelos generativos y discriminativos, Transacciones IEEE sobre conocimiento e ingeniería de datos (TKDE 2011) . Sin embargo, creo que estos enfoques son relativamente menos maduros.

tdc
fuente
Una medida interesante para los Metthews en caso de que se necesite una medida equilibrada. Sin embargo, dado que no queremos eliminar ningún registro, antes de realizar cualquier muestreo o modificación de la función de costo, ¿reequilibraría el conjunto de datos agregando ejemplos de clase raros? Creo que la respuesta podría ser NO. Porque siempre que encuentre ejemplos de clases raros, puede encontrar otros ejemplos. Por lo tanto, para obtener una medida mejor equilibrada o una mejor medida de rendimiento de clase rara (por ejemplo, medida F), realizaría una técnica (como muestreo o modificación del costo) solo después de la fase de recopilación de datos. ¿Estás de acuerdo?
Simone
De acuerdo, cualquier operación como esta debe realizarse después de la fase de recopilación de datos.
tdc