Traté de cargar el modelo preformado fastText desde aquí el modelo Fasttext . Estoy usando wiki.simple.en
from gensim.models.keyedvectors import KeyedVectors
word_vectors = KeyedVectors.load_word2vec_format('wiki.simple.bin', binary=True)
Pero, muestra los siguientes errores
Traceback (most recent call last):
File "nltk_check.py", line 28, in <module>
word_vectors = KeyedVectors.load_word2vec_format('wiki.simple.bin', binary=True)
File "P:\major_project\venv\lib\sitepackages\gensim\models\keyedvectors.py",line 206, in load_word2vec_format
header = utils.to_unicode(fin.readline(), encoding=encoding)
File "P:\major_project\venv\lib\site-packages\gensim\utils.py", line 235, in any2unicode
return unicode(text, encoding, errors=errors)
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xba in position 0: invalid start byte
Pregunta 1 ¿Cómo cargo el modelo de texto rápido con Gensim?
Pregunta 2 Además, después de cargar el modelo, quiero encontrar la similitud entre dos palabras
model.find_similarity('teacher', 'teaches')
# Something like this
Output : 0.99
¿Cómo hago esto?
DeprecationWarning: Call to deprecated `load_fasttext_format` (use load_facebook_vectors
. Así que estoy usandofrom gensim.models.fasttext import load_facebook_model
Para uso .bin :
load_fasttext_format()
(normalmente contiene un modelo completo con parámetros, ngrams, etc.).Para uso .vec :
load_word2vec_format
(esto contiene SOLO vectores de palabras -> no ngrams + no puede actualizar un modelo).Nota :: Si tiene problemas con la memoria o no puede cargar modelos .bin, compruebe el modelo de pyfasttext para el mismo.
Créditos: Ivan Menshikh (Gensim Maintainer)
fuente
El formato binario FastText (que es lo que parece que está intentando cargar) no es compatible con el
word2vec
formato de Gensim ; el primero contiene información adicional sobre unidades de subpalabras, queword2vec
no utiliza.Hay una discusión sobre el problema (y una solución alternativa) en la página FastText Github. En resumen, deberá cargar el formato de texto (disponible en https://github.com/facebookresearch/fastText/blob/master/pretrained-vectors.md ).
Una vez que haya cargado el formato de texto, puede usar Gensim para guardarlo en formato binario, lo que reducirá drásticamente el tamaño del modelo y acelerará la carga futura.
https://github.com/facebookresearch/fastText/issues/171#issuecomment-294295302
fuente