Necesito clasificar las URL en categorías. Digamos que tengo 15 categorías en las que planeo poner cero a cada URL.
¿Es mejor un clasificador de 15 vías? Donde tengo 15 etiquetas y genero características para cada punto de datos.
O construyendo 15 clasificadores binarios, diga: Película o No película, y use los números que obtengo de estas clasificaciones para construir un rango, para elegir la mejor categoría, ¿va a ser mejor?
Esto dependerá de cómo se dispersen sus datos. Hay un hermoso ejemplo que se dio recientemente a una pregunta similar en la que el OP quería saber si una sola función discriminante lineal sería un mejor clasificador para decidir la población A frente a B o C o una basada en múltiples funciones discriminantes lineales que separan A, B y C. Alguien dio un diagrama de dispersión de color muy bonito para mostrar cómo usar dos discriminantes sería mejor que uno en ese caso. Trataré de vincularlo.
fuente
Algunos métodos funcionan bien con bosques de múltiples clases, aleatorios, MLP, por ejemplo.
Si no quiere seguir ese camino, entonces es posible que ECOC pueda realizar 1-vs-All para su problema, solo las pruebas lo dirán.
fuente