Elija el algoritmo de clasificación binaria

16

Tengo un problema de clasificación binaria:

  • Aproximadamente 1000 muestras en conjunto de entrenamiento
  • 10 atributos, incluidos binario, numérico y categórico

¿Qué algoritmo es la mejor opción para este tipo de problema?

De manera predeterminada, comenzaré con SVM (preliminar que tiene valores de atributos nominales convertidos en características binarias), ya que se considera el mejor para datos relativamente limpios y no ruidosos.

IharS
fuente

Respuestas:

15

Es difícil decirlo sin saber un poco más acerca de su conjunto de datos y cuán separable se basa su conjunto de datos en su vector de características, pero probablemente sugeriría usar un bosque aleatorio extremo sobre bosques aleatorios estándar debido a su conjunto de muestra relativamente pequeño.

Los bosques aleatorios extremos son bastante similares a los bosques aleatorios estándar con la única excepción de que en lugar de optimizar las divisiones en los árboles, los bosques aleatorios extremos hacen divisiones al azar. Inicialmente, esto parecería negativo, pero generalmente significa que tiene una generalización y velocidad significativamente mejores, aunque es probable que el AUC en su conjunto de entrenamiento sea un poco peor.

La regresión logística también es una apuesta bastante sólida para este tipo de tareas, aunque con su relativamente baja dimensionalidad y tamaño de muestra pequeño, me preocuparía el sobreajuste. Es posible que desee verificar usando Vecinos K-Nearest ya que a menudo realiza mucha voluntad con bajas dimensionalidades, pero generalmente no maneja muy bien las variables categóricas.

Si tuviera que elegir uno sin saber más sobre el problema, ciertamente haría mis apuestas en un bosque extremadamente aleatorio, ya que es muy probable que le brinde una buena generalización sobre este tipo de conjunto de datos, y también maneja mejor una combinación de datos numéricos y categóricos que la mayoría de los otros métodos.

indico
fuente
¡bien gracias! Aunque todavía no estoy seguro si puedo usar el paquete R "randomForest" ( cran.r-project.org/web/packages/randomForest/randomForest.pdf ) para generar ERF. Probablemente no.
IharS
12

Para parámetros bajos, un tamaño de muestra bastante limitado y una regresión logística del clasificador binario debería ser lo suficientemente potente. Puede usar un algoritmo más avanzado, pero probablemente sea excesivo.

neone4373
fuente
5

Cuando las variables categóricas están en la mezcla, busco los bosques de decisión aleatoria, ya que maneja las variables categóricas directamente sin la transformación de codificación 1-de-n. Esto pierde menos información.

Sean Owen
fuente
5

La SVM lineal debería ser un buen punto de partida. Eche un vistazo a esta guía para elegir el estimador correcto.

Stanpol
fuente
2

No recomendaría el uso de métodos complejos primero. Use enfoques simples más rápidos inicialmente (kNN, NBC, etc.), luego avance a través de regresión lineal, regresión logística, LDA, CART (RF), KREG, y luego a SVM de mínimos cuadrados, SVM de ascenso de gradiente, ANNs y luego metaheurustica (codicioso escalada heurística con GA, inteligencia de enjambre, optimización de colonias de hormigas, etc.)


fuente