Hola, ¿quería saber si hay algunos buenos libros sobre minería de texto y clasificación con algunos estudios de casos? Si no, algunos artículos / revistas accesibles al público lo harían. Si ilustran sus ejemplos con R aún mejor. No busco el manual paso a paso, sino algo que ilustre los pros y los contras de varios enfoques de minería de texto para diversas clases de problemas.
fuente
Recientemente he leído cuatro libros en este campo:
Este se centra en ejemplos prácticos, software y minería de texto aplicada. Da múltiples ejemplos de uso práctico de minería de texto. Podría ser de interés si desea leer sobre aplicaciones comerciales de herramientas de minería de texto.
Es una serie de trabajos de investigación que se utilizan como ejemplos del uso de diferentes herramientas de minería de texto. Está bastante centrado como para la prueba introductoria.
Texto muy introductorio que describe algunos problemas generales.
Este es el mejor libro que ya leí sobre este tema. Está bien escrito, claro, profundiza en la teoría pero de manera práctica. Comienza con una introducción general, pero luego revisa algunos de los métodos y algoritmos más utilizados. Si tuviera que elegir un solo libro, le recomendaría este.
También puede encontrar fácilmente varios libros sobre procesamiento de lenguaje natural y minería de texto que se centran en usar R ( biblioteca tm ) o Python ( biblioteca nltk ).
fuente
Puede que esto no sea exactamente lo que está buscando, pero Dominar las expresiones regulares de Jeffrey Friedl es una excelente fuente para aprender a usar expresiones regulares para analizar el texto. No habla sobre técnicas de modelado, pero, armado con los recuentos de la aplicación de expresiones regulares, puede aplicar una variedad de enfoques de modelado estándar.
fuente
Un libro al que vuelvo una y otra vez para obtener ideas es Text Mining: Predictive Methods ... de Sholom Weiss. Tiene muchas ideas para abordar problemas que encuentro útiles, ya que a veces la minería de texto se trata de probar cosas diferentes: diccionario global frente a local, cantidad de características para mantener, etc. Me parece que este libro es un buen generador de ideas. También tiene estudios de casos.
fuente
Sugiero que PNL en http://www.nltk.org/ es gratis y parejas con NLTK en python. todo lo mejor
fuente