Además de las características obvias del clasificador como
- costo computacional,
- tipos de datos esperados de características / etiquetas y
- idoneidad para ciertos tamaños y dimensiones de conjuntos de datos,
¿Cuáles son los cinco clasificadores principales (¿o 10, 20?) para probar primero en un nuevo conjunto de datos sobre el que aún no se sabe mucho (por ejemplo, semántica y correlación de características individuales)? Por lo general, pruebo Naive Bayes, Nearest Neighbour, Decision Tree y SVM, aunque no tengo una buena razón para esta selección aparte de conocerlos y sobre todo entender cómo funcionan.
Supongo que uno debería elegir clasificadores que cubran los enfoques de clasificación general más importantes . ¿Qué selección recomendaría, de acuerdo con ese criterio o por cualquier otro motivo?
ACTUALIZACIÓN: Una formulación alternativa para esta pregunta podría ser: "¿Qué enfoques generales de clasificación existen y qué métodos específicos cubren los más importantes / populares / prometedores?"
fuente
Respuestas:
Bosque al azar
Rápido, robusto, buena precisión, en la mayoría de los casos nada que sintonizar, no requiere normalización, es inmune a la colinealidad, genera una aproximación de error bastante buena y una clasificación de importancia útil como efecto secundario del entrenamiento, trivialmente paralelo, predice en un abrir y cerrar de ojos.
Inconvenientes: más lento que los métodos triviales como kNN o NB, funciona mejor con clases iguales, peor precisión que SVM para problemas que requieren desesperadamente el truco del grano, es una caja negra dura, no hace café.
fuente
Clasificador de proceso gaussiano (sin utilizar la aproximación de Laplace), preferiblemente con marginación en lugar de optimización de los hiperparámetros. ¿Por qué?
Desventajas
Sin embargo, la primera opción sería la regresión logística regularizada o la regresión de cresta [sin selección de características]: para la mayoría de los problemas, los algoritmos muy simples funcionan bastante bien y son más difíciles de equivocar (en la práctica, las diferencias en el rendimiento entre algoritmos son menores que las diferencias en el rendimiento entre el operador que los conduce).
fuente
Por mi cuenta, cuando se está acercando a un nuevo conjunto de datos, debe comenzar a observar todo el problema. En primer lugar, obtenga una distribución de características categóricas y desviaciones medias y estándar para cada característica continua. Luego:
Luego, generalmente divido las técnicas de clasificación en 2 conjuntos: técnica de caja blanca y caja negra. Si necesita saber "cómo funciona el clasificador", debe elegir en el primer conjunto, por ejemplo, árboles de decisión o clasificadores basados en reglas.
Si necesita clasificar nuevos registros sin crear un modelo, debe echarle un vistazo a un alumno ansioso, por ejemplo, KNN.
Después de eso, creo que es mejor tener un umbral entre precisión y velocidad: las redes neuronales son un poco más lentas que SVM.
Esta es mi técnica de clasificación de los cinco principales:
fuente