¿Cuál es el mejor clasificador de 2 clases listo para usar? Sí, supongo que esa es la pregunta del millón de dólares, y sí, soy consciente del teorema de no almuerzo gratis , y también he leído las preguntas anteriores:
Aún así, estoy interesado en leer más sobre el tema.
¿Cuál es una buena fuente de información que incluye una comparación general de las características, ventajas y características de los diferentes clasificadores?
Respuestas:
El ESL , como ya lo mencionó Peter Flom, es una excelente sugerencia (tenga en cuenta que mi enlace está en la página de inicio del autor donde se puede obtener el libro como un archivo pdf de forma gratuita). Permítanme agregar un par de cosas más específicas para buscar en el libro:
Agregue al libro la Vista de tareas de aprendizaje automático para R, que da una idea de lo que realmente pueden hacer los muchos paquetes de aprendizaje automático, aunque no hay una comparación real. Para los usuarios de Python, imagino que scikit.learn es un buen lugar para buscar. Qué tan "listo para usar" o "listo para usar" es un método, depende en gran medida de qué tan bien la implementación maneje la adaptación automática a la situación de los datos en lugar de dejar la sintonización detallada para el usuario. En mi opinión, mgcv para R es un buen ejemplo que hace que la instalación de un modelo de aditivo generalizado razonablemente bueno sea realmente fácil y básicamente sin necesidad de que el usuario "ajuste manualmente" nada.
fuente
Los recursos enumerados por otros son ciertamente útiles, pero añadiré lo siguiente: es probable que el "mejor" clasificador sea específico para el contexto y los datos. En una reciente incursión en la evaluación de diferentes clasificadores binarios, encontré que un Árbol de regresión potenciado funcionaba de manera consistente mejor que otros métodos a los que tenía acceso. Lo clave para mí fue aprender a usar las herramientas de minería de datos de Orange . Tienen una excelente documentación para comenzar a explorar estos métodos con sus datos. Por ejemplo, aquí hay un breve script de Python que escribí para evaluar la calidad de múltiples clasificadores a través de múltiples medidas de precisión utilizando la validación cruzada k-fold.
Cuando ejecuto este código en mis datos obtengo resultados como
Hay mucho más que puedes hacer con los objetos Orange para introspectar el rendimiento y hacer comparaciones. Encontré que este paquete era extremadamente útil para escribir una pequeña cantidad de código para aplicar métodos a mis datos con una API consistente y abstracción del problema (es decir, no necesitaba usar seis paquetes diferentes de seis autores diferentes, cada uno con sus propios enfoque al diseño y documentación de API, etc.
fuente
El libro Los elementos del aprendizaje estadístico tiene mucha información sobre esto.
fuente
Otros recursos que encontré al respecto (PDF gratuito disponible):
fuente
Según este exhaustivo estudio reciente (evaluación de 179 clasificadores en 121 conjuntos de datos), los mejores clasificadores son bosques aleatorios seguidos de máquinas de vectores de soporte.
fuente