Estoy tratando de hacer un análisis de sentimientos. Para convertir las palabras en vectores de palabras, estoy usando el modelo word2vec. Supongamos que tengo todas las oraciones en una lista llamada 'oraciones' y estoy pasando estas oraciones a word2vec de la siguiente manera:
model = word2vec.Word2Vec(sentences, workers=4 , min_count=40, size=300, window=5, sample=1e-3)
Como soy novato con los vectores de palabras, tengo dos dudas.
1- Establecer el número de características en 300 define las características de un vector de palabras. Pero, ¿qué significan estas características? Si cada palabra en este modelo está representada por una matriz numpy 1x300, ¿qué significan estas 300 características para esa palabra?
2- ¿Qué hace en realidad el muestreo descendente representado por el parámetro 'muestra' en el modelo anterior?
Gracias por adelantado.
fuente