Los cinco clasificadores principales para probar primero

25

Además de las características obvias del clasificador como

  • costo computacional,
  • tipos de datos esperados de características / etiquetas y
  • idoneidad para ciertos tamaños y dimensiones de conjuntos de datos,

¿Cuáles son los cinco clasificadores principales (¿o 10, 20?) para probar primero en un nuevo conjunto de datos sobre el que aún no se sabe mucho (por ejemplo, semántica y correlación de características individuales)? Por lo general, pruebo Naive Bayes, Nearest Neighbour, Decision Tree y SVM, aunque no tengo una buena razón para esta selección aparte de conocerlos y sobre todo entender cómo funcionan.

Supongo que uno debería elegir clasificadores que cubran los enfoques de clasificación general más importantes . ¿Qué selección recomendaría, de acuerdo con ese criterio o por cualquier otro motivo?


ACTUALIZACIÓN: Una formulación alternativa para esta pregunta podría ser: "¿Qué enfoques generales de clasificación existen y qué métodos específicos cubren los más importantes / populares / prometedores?"

Oben Sonne
fuente
Creo que este es un duplicado de ( stats.stackexchange.com/questions/3458/… ). El único valor adicional de la pregunta aquí podría ser "criterios para seleccionar clasificadores" (lo que haría que la pregunta sea muy genérica). Si es un duplicado, vote por cierre, de lo contrario vote por cw;)
steffen
@steffen: Sin embargo, su pregunta de referencia es útil, creo que no es un duplicado. De hecho, mi pregunta es bastante genérica. No estoy buscando una solución a un problema en particular, sino por razones generales por las cuales usar qué alumnos, actualizaré mi pregunta en consecuencia.
Oben Sonne

Respuestas:

21

Bosque al azar

Rápido, robusto, buena precisión, en la mayoría de los casos nada que sintonizar, no requiere normalización, es inmune a la colinealidad, genera una aproximación de error bastante buena y una clasificación de importancia útil como efecto secundario del entrenamiento, trivialmente paralelo, predice en un abrir y cerrar de ojos.

Inconvenientes: más lento que los métodos triviales como kNN o NB, funciona mejor con clases iguales, peor precisión que SVM para problemas que requieren desesperadamente el truco del grano, es una caja negra dura, no hace café.

usuario88
fuente
1
@mbq (+1) Acerca del desequilibrio de clase, todavía podemos confiar en el muestreo estratificado durante el ensacado.
chl
3
@mbq, ¿no hace café? Eso es un factor decisivo allí mismo.
cardenal
Gracias por la pista a los bosques al azar . ¿Pero probarías solo ellos? ¿Qué pasa si no estás contento con los resultados? ¿Qué clasificador probarías si no? O, ¿qué respondería si alguien pregunta: "¿Por qué no probó otros métodos?
Oben Sonne
@Oben Bueno, entendí que estás haciendo una especie de grupo de un clasificador por respuesta.
@mbq: En realidad no, pero resulta ser un grupo. Probablemente no me hice lo suficientemente claro en la pregunta. En realidad, quería saber qué conjunto de clasificadores debería probar primero, para cubrir diferentes métodos de clasificación general (con diferentes fortalezas y debilidades). Siempre me pregunto si no debería probar más clasificadores. Saber que los que probé ya representan los enfoques más típicos / prometedores ayudaría aquí. Pero para eso necesito saber para qué conjunto de clasificadores esto es cierto. (Estoy lejos de ser un experto en estadísticas, así que avíseme si mi mente está un poco retorcida aquí)
Oben Sonne
7

Clasificador de proceso gaussiano (sin utilizar la aproximación de Laplace), preferiblemente con marginación en lugar de optimización de los hiperparámetros. ¿Por qué?

  1. porque dan una clasificación probabilística
  2. puede usar una función de núcleo que le permite operar directamente en datos no vectoriales y / o incorporar conocimiento experto
  3. abordan la incertidumbre en el ajuste adecuado del modelo, y usted puede propagar esa incertidumbre a través del proceso de toma de decisiones
  4. En general, muy buen rendimiento predictivo.

Desventajas

  1. lento
  2. requiere mucha memoria
  3. poco práctico para problemas a gran escala.

Sin embargo, la primera opción sería la regresión logística regularizada o la regresión de cresta [sin selección de características]: para la mayoría de los problemas, los algoritmos muy simples funcionan bastante bien y son más difíciles de equivocar (en la práctica, las diferencias en el rendimiento entre algoritmos son menores que las diferencias en el rendimiento entre el operador que los conduce).

usuario88
fuente
1

Por mi cuenta, cuando se está acercando a un nuevo conjunto de datos, debe comenzar a observar todo el problema. En primer lugar, obtenga una distribución de características categóricas y desviaciones medias y estándar para cada característica continua. Luego:

  • Eliminar características con más del X% de valores faltantes;
  • Eliminar características categóricas cuando un valor particular obtiene más del 90-95% de frecuencia relativa;
  • Eliminar características continuas con CV = estándar / media <0.1;
  • Obtenga una clasificación de parámetros, por ejemplo, ANOVA para continuo y Chi-cuadrado para categórico;
  • Obtenga un subconjunto significativo de características;

Luego, generalmente divido las técnicas de clasificación en 2 conjuntos: técnica de caja blanca y caja negra. Si necesita saber "cómo funciona el clasificador", debe elegir en el primer conjunto, por ejemplo, árboles de decisión o clasificadores basados ​​en reglas.

Si necesita clasificar nuevos registros sin crear un modelo, debe echarle un vistazo a un alumno ansioso, por ejemplo, KNN.

Después de eso, creo que es mejor tener un umbral entre precisión y velocidad: las redes neuronales son un poco más lentas que SVM.

Esta es mi técnica de clasificación de los cinco principales:

  1. Árbol de decisión;
  2. Clasificadores basados ​​en reglas;
  3. SMO (SVM);
  4. Ingenuo Bayes;
  5. Redes neuronales.
Simone
fuente
44
-1 Flujo de trabajo absolutamente incorrecto para grandes p pequeñas n, el sobreajuste FS está garantizado.
1
¿No es kNN un aprendiz perezoso en lugar de ansioso (ya que en realidad no hace nada hasta que realmente tiene que hacerlo cuando aparece un patrón para clasificar)? Es probable que cualquier procesamiento previo que realice antes de aplicar el clasificador tenga un efecto mayor en el rendimiento que la diferencia entre los clasificadores; La selección de características es especialmente difícil (conduce fácilmente a un ajuste excesivo), y los métodos como el SVM con regularización generalmente funcionan mejor sin la selección de características. Ciertamente, no recomendaría redes neuronales, demasiados escollos potenciales.
Dikran Marsupial