Ejemplos de minería de texto con R (paquete tm)

14

Pasé tres días incursionando tmdespués de leer un borrador de un amigo donde exploró un corpus de texto con UCINET, mostrando nubes de texto, gráficos de red de dos modos y descomposición de valor único (con gráficos, usando Stata). Me encontré con una gran cantidad de problemas: en Mac OS X, hay problemas con Java detrás de bibliotecas como Snowball (stemming) o Rgraphviz (gráficos).

Podría señalar a alguien , no paquetes - que he mirado tm, wordfishy wordscores, y saber acerca de NLTK - pero la investigación, si es posible con el código, en datos textuales, que utiliza con éxito tmo algo más para analizar los datos como los debates parlamentarios o documentos legislativos? Parece que no puedo encontrar mucho sobre el tema, y ​​menos código para aprender.

Mi propio proyecto es un debate parlamentario de dos meses, con estas variables informadas en un archivo CSV: sesión parlamentaria, orador, grupo parlamentario, texto de intervención oral. Estoy buscando divergencias entre los hablantes y especialmente entre los grupos parlamentarios en el uso de términos raros y menos raros, por ejemplo, "charla de seguridad" contra charla de "libertades civiles".

El p.
fuente

Respuestas:

7

La tesis doctoral del autor de TM, Ingo Feinerer de Austria, está escrita en inglés. Los capítulos 7-10 de este documento contienen aplicaciones del paquete tm, con una complejidad creciente.

http://epub.wu.ac.at/1923/

El Capítulo 7 presenta una aplicación de tm mediante el análisis de la lista de correo R-devel 2006. El Capítulo 8 muestra una aplicación de minería de texto para el comercio electrónico de negocios al consumidor. El Capítulo 9 es una aplicación de TM para investigar las jurisdicciones de la corte suprema administrativa austriaca con respecto a las cuotas e impuestos. [...] . El Capítulo 10 muestra una solicitud de estilometría y atribución de autoría en el conjunto de datos del Mago de Oz.

Lea todo el documento de principio a fin. Tenga en cuenta, sin embargo, que el documento fue escrito en 2008, y desde entonces ha habido algunos cambios en la API, por ejemplo, la tesis doctoral menciona una función a la tmMap()que se le ha cambiado el nombre tm_map(). Por lo tanto, los ejemplos de código no funcionarán tal cual, no puede usar cortar y pegar para probarlos.

También puedes ir a

http://tm.r-forge.r-project.org/users.html

"En un intento por informar a los nuevos usuarios acerca de las aplicaciones de tm existentes, este sitio tiene como objetivo proporcionar una lista (alfabética incompleta) de los usuarios de tm y sus comentarios. Los usuarios conocidos van desde institutos de investigación hasta empresas e individuos".

y busque en esa página la frase "escribió un artículo" y encontrará muchos enlaces. Leí solo uno de los artículos, "detección automática de temas en letras de canciones". Muy interesante y divertido.

knb
fuente
Creo que la disertación de Feinerer es el documento que más me ha ayudado hasta ahora. ¡Gracias!
p.
5

Un buen lugar para comenzar podría ser la lista de publicaciones en el sitio web tm, como esta:

La lista de referencias al final de cada una de estas publicaciones incluye aplicaciones exitosas tm, que es lo que parece estar buscando. Hay muchos, especialmente si sigue las referencias de las referencias.

Por ejemplo, aquí hay uno que podría ser relevante:

Feinerer I, Hornik K (2007). \ Minería de texto de las jurisdicciones del Tribunal Administrativo Supremo ". En C Preisach, H Burkhardt, L Schmidt-Thieme, R Decker (eds.), \ Análisis de datos, aprendizaje automático y aplicaciones (Actas de la 31ª Conferencia Anual de la Gesellschaft f ur Klassikation eV, 7 de marzo (9, 2007, Friburgo, Alemania), "Studies in Classication, Data Analysis, and Knowledge Organization. Springer-Verlag.

Buena suerte.

Un hombre
fuente
Gracias por las referencias. Sin embargo, el nivel de detalle es insuficiente en estas publicaciones: tuve que leer de la disertación de Feinerer para obtener suficientes detalles sobre cómo operar tmde mi parte. Aún así, muchas gracias :)
P.