Supongamos que estoy interesado en tres clases , , . Pero mi conjunto de datos en realidad contiene varias clases reales más .
La respuesta obvia es definir una nueva clase que se refiera a todas las clases , pero sospecho que no es una buena idea ya que las muestras en serán raras y no muy similares entre sí.
Para visualizar lo que estoy tratando de decir, suponga que tengo los siguientes dos espacios variables y las clases , , , se representan en rojo, til, verde y negro respectivamente. Así es como sospecho que se verían mis datos.
¿Hay alguna forma estándar de abordar este problema? ¿Cuál sería el clasificador más eficiente y por qué?
machine-learning
classification
h3h325
fuente
fuente
Respuestas:
un enfoque de dos pasos, usando la idea de la clase que mencionaste.c4^
En el primer paso, use un clasificador binario (entrenado en todo el conjunto de datos) para decidir si una muestra pertenece a la clase (es decir, en cualquier clase no interesante). Para esto, paso también puede echar un vistazo a los métodos de detección de valores atípicos , si las muestras que pertenecen a las clases "interesantes" son muy diferentes al resto.c4^
Si el resultado es negativo, pase al siguiente paso, un nuevo clasificador entrenado solo en muestras que pertenecen a las clases y use esa predicción como la final.c1,c2,c3
Creo que incluso usando un enfoque de agrupación simple como primer paso (por ejemplo, 4-agrupaciones k-significa usar como valores de centroide iniciales el centroide promedio para cada ), aún sería útil.centj=∑xi∈D:yi=jxi∑xi∈D:yi=j1 c1,c2,c3,c4^
fuente