¿Buenos libros sobre minería de texto?

11

Hola, ¿quería saber si hay algunos buenos libros sobre minería de texto y clasificación con algunos estudios de casos? Si no, algunos artículos / revistas accesibles al público lo harían. Si ilustran sus ejemplos con R aún mejor. No busco el manual paso a paso, sino algo que ilustre los pros y los contras de varios enfoques de minería de texto para diversas clases de problemas.

dasman
fuente

Respuestas:

5

Echa un vistazo a http://lintool.github.com/MapReduceAlgorithms/MapReduce-book-final.pdf Procesamiento de texto intensivo en datos con MapReduce: este libro es bastante académico pero cubre una serie de técnicas de procesamiento de texto de uso común y cómo se pueden analizar. sobre un gran conjunto de datos usando reducción de mapa.

www.rtexttools.com Este es un excelente paquete de R que le ayuda a aplicar una amplia gama de algoritmos de clasificación (incluidos algunos métodos de conjunto) a la analítica de texto. y

Ross Farrelly
fuente
44
Para que esta respuesta sea autónoma, ¿le importaría proporcionar un breve resumen de cada enlace?
chl
4

Recientemente he leído cuatro libros en este campo:

Feldman, R. y James Sanger, J. (2006). El manual de minería de texto: enfoques avanzados en el análisis de datos no estructurados. Prensa de la Universidad de Cambridge.

Este se centra en ejemplos prácticos, software y minería de texto aplicada. Da múltiples ejemplos de uso práctico de minería de texto. Podría ser de interés si desea leer sobre aplicaciones comerciales de herramientas de minería de texto.

Srivastava, AN y Sahami, M. (2009). Minería de texto: clasificación, agrupamiento y aplicaciones. Chapman & Hall / CRC.

Es una serie de trabajos de investigación que se utilizan como ejemplos del uso de diferentes herramientas de minería de texto. Está bastante centrado como para la prueba introductoria.

Weiss, SM, Indurkhya, N., Zhang, T. y Damerau, F. (2005). Minería de texto: métodos predictivos para analizar información no estructurada. Saltador.

Texto muy introductorio que describe algunos problemas generales.

Manning, C. (1999). Fundamentos del procesamiento estadístico del lenguaje natural. MIT Press.

Este es el mejor libro que ya leí sobre este tema. Está bien escrito, claro, profundiza en la teoría pero de manera práctica. Comienza con una introducción general, pero luego revisa algunos de los métodos y algoritmos más utilizados. Si tuviera que elegir un solo libro, le recomendaría este.

También puede encontrar fácilmente varios libros sobre procesamiento de lenguaje natural y minería de texto que se centran en usar R ( biblioteca tm ) o Python ( biblioteca nltk ).

Tim
fuente
2

Puede que esto no sea exactamente lo que está buscando, pero Dominar las expresiones regulares de Jeffrey Friedl es una excelente fuente para aprender a usar expresiones regulares para analizar el texto. No habla sobre técnicas de modelado, pero, armado con los recuentos de la aplicación de expresiones regulares, puede aplicar una variedad de enfoques de modelado estándar.

Charlie
fuente
2

Un libro al que vuelvo una y otra vez para obtener ideas es Text Mining: Predictive Methods ... de Sholom Weiss. Tiene muchas ideas para abordar problemas que encuentro útiles, ya que a veces la minería de texto se trata de probar cosas diferentes: diccionario global frente a local, cantidad de características para mantener, etc. Me parece que este libro es un buen generador de ideas. También tiene estudios de casos.

Wake2Sleep
fuente