Cada algoritmo que trata con datos de texto tiene un vocabulario. En el caso de word2vec, el vocabulario se compone de todas las palabras en el corpus de entrada, o al menos las que están por encima del umbral de frecuencia mínima.
Los algoritmos tienden a ignorar las palabras que están fuera de su vocabulario. Sin embargo, hay formas de replantear su problema de manera tal que esencialmente no hay palabras fuera del vocabulario.
Recuerde que las palabras son simplemente "tokens" en word2vec. Podrían ser ngrams o podrían ser letras. Una forma de definir su vocabulario es decir que cada palabra que aparece al menos X veces está en su vocabulario. Luego, las "sílabas" más comunes (ngramas de letras) se agregan a su vocabulario. Luego agrega letras individuales a su vocabulario.
De esta manera, puede definir cualquier palabra como
- Una palabra en tu vocabulario
- Un conjunto de sílabas en tu vocabulario.
- Un conjunto combinado de letras y sílabas en tu vocabulario
El corpus de entrenamiento necesita tener todas las palabras de las cuales quieres encontrar similitud.
fuente
La palabra2Vec y FastText fallan si la palabra no está en el vocabulario. Lanza un error. Da una lista de puntuación para palabras relacionadas Pero una palabra invisible no estará en el vocabulario, ¿no es así? Entonces, ¿cómo resuelve el problema invisible de la palabra?
fuente