En una clasificación simple, tenemos dos clases: clase-0 y clase-1. En algunos datos solo tengo valores para la clase 1, por lo que ninguno para la clase 0. Ahora estoy pensando en hacer un modelo para modelar los datos para la clase 1. Entonces, cuando llegan nuevos datos, este modelo se aplica a los nuevos datos y encuentra una probabilidad que dice cuán probable es que esos nuevos datos se ajusten a este modelo. Luego, comparando con un umbral, puedo filtrar datos inapropiados.
Mis preguntas son:
- ¿Es esta una buena manera de trabajar con tales problemas?
- ¿Se puede usar un clasificador RandomForest para este caso? ¿Necesito agregar datos artificiales para la clase 0, que espero que el clasificador considere como ruido?
- ¿Alguna otra idea puede ayudar para este problema?
fuente
Permítanme agregar algunas posibilidades más:
La idea general es que establecer un umbral a la distancia de la clase le permite decidir si una muestra pertenece a esa clase o no, e independientemente de si hay otras clases o no.
SIMCA es común en la literatura quimiométrica (aunque rara vez se configura de una manera única).
Richard G. Brereton: Chemometrics for Pattern Recognition (Wiley, 2009) tiene un capítulo completo sobre la clasificación de una clase.
fuente