En un pequeño problema de clasificación de texto que estaba viendo, Naive Bayes ha estado exhibiendo un rendimiento similar o mayor que un SVM y estaba muy confundido.
Me preguntaba qué factores deciden el triunfo de un algoritmo sobre el otro. ¿Hay situaciones en las que no tiene sentido usar Naive Bayes sobre SVM? ¿Alguien puede arrojar luz sobre esto?
Respuestas:
No hay una respuesta única sobre cuál es el mejor método de clasificación para un conjunto de datos dado . Siempre se deben considerar diferentes tipos de clasificadores para un estudio comparativo sobre un conjunto de datos dado. Dadas las propiedades del conjunto de datos, puede tener algunas pistas que pueden dar preferencia a algunos métodos. Sin embargo, aún sería aconsejable experimentar con todos, si es posible.
Naive Bayes Classifier (NBC) y Support Vector Machine (SVM) tienen diferentes opciones, incluida la elección de la función del núcleo para cada uno. Ambos son sensibles a la optimización de parámetros (es decir, una selección de parámetros diferente puede cambiar significativamente su salida) . Entonces, si tiene un resultado que muestra que NBC está funcionando mejor que SVM. Esto solo es cierto para los parámetros seleccionados. Sin embargo, para otra selección de parámetros, es posible que SVM funcione mejor.
En general, si las variables de su conjunto de datos satisfacen el supuesto de independencia en NBC y el grado de superposición de clases es pequeño (es decir, límite de decisión lineal potencial), se esperaría que NBC logre un buen resultado. Para algunos conjuntos de datos, con la optimización mediante la selección de características de envoltura, por ejemplo, NBC puede derrotar a otros clasificadores. Incluso si logra un rendimiento comparable, NBC será más deseable debido a su alta velocidad.
En resumen, no deberíamos preferir ningún método de clasificación si supera a otros en un contexto, ya que podría fallar severamente en otro. ( ESTO ES NORMAL EN PROBLEMAS DE MINERÍA DE DATOS ).
fuente