¿Cuántos datos de entrenamiento necesita word2vec?

10

Me gustaría comparar la diferencia entre la misma palabra mencionada en diferentes fuentes. Es decir, cómo los autores difieren en el uso de palabras mal definidas, como "democracia".

Un breve plan fue

  1. Tome los libros que mencionan el término "democracia" como texto sin formato
  2. En cada libro, reemplace democracycondemocracy_%AuthorName%
  3. Entrenar a una word2vecmodelo en estos libros
  4. Calcule la distancia entre democracy_AuthorA, democracy_AuthorBy otras menciones etiquetadas de "democracia"

Por lo tanto, la "democracia" de cada autor tiene su propio vector, que se utiliza para comparar.

Pero parece que word2vecrequiere mucho más que varios libros (cada palabra etiquetada aparece solo en un subconjunto de libros) para entrenar vectores confiables. La página oficial recomienda conjuntos de datos que incluyen miles de millones de palabras.

Solo quería preguntar qué tan grande debería ser el subconjunto de los libros de un autor para hacer tal inferencia word2veco herramientas alternativas, si están disponibles.

Anton Tarasenko
fuente
1
¿Los libros que está utilizando únicamente sobre el tema de la democracia, de lo contrario, su métrica de distancia podría no verse afectada por diferencias más grandes entre los contenidos de los libros? Este es un efecto secundario de su problema al estar en un espacio dimensional muy alto y ser tocado por la maldición de la dimensionalidad. Quizás ayudaría tomar solo una pequeña región de texto alrededor de la palabra de interés, pero sigue siendo un problema con una dimensión significativa.
image_doctor
1
Sí, esa es la esencia de eso. aquí va con una metáfora probablemente mal pensada. Imagine capítulos de libros representados por colores. Y un libro es un todo representado como la mezcla de todos los colores de los capítulos. Un libro sobre democracia en Europa occidental probablemente terminaría con un tono rojizo en general como la suma de sus capítulos. Si representamos el turismo por azul, un libro sobre Turismo en Cuba, con un único capítulo sobre democracia y su influencia en el desarrollo económico, tendría un fuerte tono azul. Por lo tanto, los dos libros parecerían muy diferentes cuando se vieran como un todo.
image_doctor
1
Esa es la forma más accesible de decir lo que un científico de datos expresaría como los vectores para los dos libros estarán muy separados en el espacio de características y, por lo tanto, parecerán bastante diferentes. Es realmente difícil cuantificar de antemano cuántos ejemplos necesitará sin jugar con los datos, pero el lenguaje es sutil y estratificado, por lo que probablemente querrá tantos como pueda ... y tal vez más. En última instancia, no lo sabrá hasta que lo intente. No es una respuesta concreta, pero a menos que alguien tenga experiencia directa de hacer algo similar, probablemente sea lo mejor que obtendrá.
image_doctor
1
word2vec ya solo usa "una pequeña región de texto alrededor de la palabra de interés". El windowparámetro establece cuántas palabras en el contexto se utilizan para entrenar el modelo para su palabra w
jamesmf
1
@político científico No había terminado este proyecto.
Anton Tarasenko

Respuestas:

1

Parece que doc2vec (o vectores de párrafo / contexto) podría ser adecuado para este problema.

En pocas palabras, además de los vectores de palabras, agrega un "vector de contexto" (en su caso, una incrustación para el autor) que se utiliza para predecir el centro o las palabras de contexto.

Esto significa que se beneficiaría de todos los datos sobre "democracia", pero también extraería una incrustación para ese autor, que combinada debería permitirle analizar el sesgo de cada autor con datos limitados sobre cada autor.

Puedes usar la implementación de gensim . El documento incluye enlaces a los documentos fuente.

medianos
fuente