¿Cómo abordo un problema de clasificación en el que una de las clases se define por "ninguna de las otras"

9

Supongamos que estoy interesado en tres clases , , . Pero mi conjunto de datos en realidad contiene varias clases reales más .C1C2C3(Cj)j=4 4norte

La respuesta obvia es definir una nueva clase C^4 4 que se refiera a todas las clases Cj , j>3 pero sospecho que no es una buena idea ya que las muestras en C^4 4 serán raras y no muy similares entre sí.

Para visualizar lo que estoy tratando de decir, suponga que tengo los siguientes dos espacios variables y las clases C1 , C2 , C3 , C^4 4=j=4 4norteCj se representan en rojo, til, verde y negro respectivamente. Así es como sospecho que se verían mis datos.

ingrese la descripción de la imagen aquí

¿Hay alguna forma estándar de abordar este problema? ¿Cuál sería el clasificador más eficiente y por qué?

h3h325
fuente
1
Es posible que desee explorar modelos positivos sin etiqueta . Parece un problema similar, excepto que es multiclase, no binario como la mayoría de los problemas de PU.
Ricardo Cruz

Respuestas:

4

un enfoque de dos pasos, usando la idea de la clase que mencionaste.c4^

En el primer paso, use un clasificador binario (entrenado en todo el conjunto de datos) para decidir si una muestra pertenece a la clase (es decir, en cualquier clase no interesante). Para esto, paso también puede echar un vistazo a los métodos de detección de valores atípicos , si las muestras que pertenecen a las clases "interesantes" son muy diferentes al resto.c4^

Si el resultado es negativo, pase al siguiente paso, un nuevo clasificador entrenado solo en muestras que pertenecen a las clases y use esa predicción como la final.c1,c2,c3

Creo que incluso usando un enfoque de agrupación simple como primer paso (por ejemplo, 4-agrupaciones k-significa usar como valores de centroide iniciales el centroide promedio para cada ), aún sería útil.centj=xiD:yi=jxixiD:yi=j1c1,c2,c3,c4^

Bogas
fuente
La sugerencia de Bogas es excelente si no tiene mucha superposición de clases. De lo contrario, vaya con un modelo de etiqueta múltiple.
Ricardo Cruz