Pasé tres días incursionando tm
después de leer un borrador de un amigo donde exploró un corpus de texto con UCINET, mostrando nubes de texto, gráficos de red de dos modos y descomposición de valor único (con gráficos, usando Stata). Me encontré con una gran cantidad de problemas: en Mac OS X, hay problemas con Java detrás de bibliotecas como Snowball (stemming) o Rgraphviz (gráficos).
Podría señalar a alguien , no paquetes - que he mirado tm
, wordfish
y wordscores
, y saber acerca de NLTK - pero la investigación, si es posible con el código, en datos textuales, que utiliza con éxito tm
o algo más para analizar los datos como los debates parlamentarios o documentos legislativos? Parece que no puedo encontrar mucho sobre el tema, y menos código para aprender.
Mi propio proyecto es un debate parlamentario de dos meses, con estas variables informadas en un archivo CSV: sesión parlamentaria, orador, grupo parlamentario, texto de intervención oral. Estoy buscando divergencias entre los hablantes y especialmente entre los grupos parlamentarios en el uso de términos raros y menos raros, por ejemplo, "charla de seguridad" contra charla de "libertades civiles".
fuente
Respuestas:
La tesis doctoral del autor de TM, Ingo Feinerer de Austria, está escrita en inglés. Los capítulos 7-10 de este documento contienen aplicaciones del paquete tm, con una complejidad creciente.
http://epub.wu.ac.at/1923/
Lea todo el documento de principio a fin. Tenga en cuenta, sin embargo, que el documento fue escrito en 2008, y desde entonces ha habido algunos cambios en la API, por ejemplo, la tesis doctoral menciona una función a la
tmMap()
que se le ha cambiado el nombretm_map()
. Por lo tanto, los ejemplos de código no funcionarán tal cual, no puede usar cortar y pegar para probarlos.También puedes ir a
http://tm.r-forge.r-project.org/users.html
y busque en esa página la frase "escribió un artículo" y encontrará muchos enlaces. Leí solo uno de los artículos, "detección automática de temas en letras de canciones". Muy interesante y divertido.
fuente
Un buen lugar para comenzar podría ser la lista de publicaciones en el sitio web
tm
, como esta:La lista de referencias al final de cada una de estas publicaciones incluye aplicaciones exitosas
tm
, que es lo que parece estar buscando. Hay muchos, especialmente si sigue las referencias de las referencias.Por ejemplo, aquí hay uno que podría ser relevante:
Buena suerte.
fuente
tm
de mi parte. Aún así, muchas gracias :)