Soy un programador sin antecedentes estadísticos, y actualmente estoy buscando diferentes métodos de clasificación para una gran cantidad de documentos diferentes que quiero clasificar en categorías predefinidas. He estado leyendo sobre kNN, SVM y NN. Sin embargo, tengo algunos problemas para comenzar. ¿Qué recursos me recomiendan? Conozco bastante bien el cálculo de una sola variable y de múltiples variables, por lo que mis matemáticas deberían ser lo suficientemente fuertes. También tengo el libro de Bishop sobre redes neuronales, pero ha demostrado ser un poco denso como introducción.
32
Un excelente texto introductorio que cubre los temas que mencionó es Introducción a la recuperación de información , que está disponible en línea en texto completo de forma gratuita.
fuente
La red neuronal puede ser lenta para una gran cantidad de documentos (también esto ahora es bastante obsoleto).
Y también puede marcar Random Forest entre los clasificadores; Es bastante rápido, se escala bien y no necesita ajustes complejos.
fuente
Si viene del lado de la programación, una opción es usar el Kit de herramientas de lenguaje natural (NLTK) para Python. Hay un libro de O'Reilly, disponible gratuitamente , que podría ser una introducción menos densa y más práctica para crear clasificadores de documentos, entre otras cosas.
Si está interesado en reforzar el aspecto estadístico, el libro de Roger Levy en curso, Modelos probabilísticos en el estudio del lenguaje , podría no ser malo para leerlo. Está escrito para estudiantes de posgrado cogsci / compsci que comienzan con técnicas estadísticas de PNL.
fuente
En primer lugar, puedo recomendar el libro Fundamentos del procesamiento estadístico del lenguaje natural de Manning y Schütze.
Los métodos que usaría son distribuciones de frecuencia de palabras y modelos de lenguaje ngram. El primero funciona muy bien cuando quieres clasificar un tema y tus temas son específicos y expertos (con palabras clave). El modelado de Ngram es la mejor manera de clasificar estilos de escritura, etc.
fuente
Naive Bayes suele ser el punto de partida para la clasificación de texto, aquí hay un artículo del Dr. Dobbs sobre cómo implementar uno. También es a menudo el punto final para la clasificación de texto porque es muy eficiente y se paraleliza bien, SpamAssassin y POPFile lo usan.
fuente