Me gustaría comparar la diferencia entre la misma palabra mencionada en diferentes fuentes. Es decir, cómo los autores difieren en el uso de palabras mal definidas, como "democracia".
Un breve plan fue
- Tome los libros que mencionan el término "democracia" como texto sin formato
- En cada libro, reemplace
democracy
condemocracy_%AuthorName%
- Entrenar a una
word2vec
modelo en estos libros - Calcule la distancia entre
democracy_AuthorA
,democracy_AuthorB
y otras menciones etiquetadas de "democracia"
Por lo tanto, la "democracia" de cada autor tiene su propio vector, que se utiliza para comparar.
Pero parece que word2vec
requiere mucho más que varios libros (cada palabra etiquetada aparece solo en un subconjunto de libros) para entrenar vectores confiables. La página oficial recomienda conjuntos de datos que incluyen miles de millones de palabras.
Solo quería preguntar qué tan grande debería ser el subconjunto de los libros de un autor para hacer tal inferencia word2vec
o herramientas alternativas, si están disponibles.
text-mining
word-embeddings
Anton Tarasenko
fuente
fuente
window
parámetro establece cuántas palabras en el contexto se utilizan para entrenar el modelo para su palabra wRespuestas:
Parece que doc2vec (o vectores de párrafo / contexto) podría ser adecuado para este problema.
En pocas palabras, además de los vectores de palabras, agrega un "vector de contexto" (en su caso, una incrustación para el autor) que se utiliza para predecir el centro o las palabras de contexto.
Esto significa que se beneficiaría de todos los datos sobre "democracia", pero también extraería una incrustación para ese autor, que combinada debería permitirle analizar el sesgo de cada autor con datos limitados sobre cada autor.
Puedes usar la implementación de gensim . El documento incluye enlaces a los documentos fuente.
fuente