He estado trabajando en datos entrenados para el algoritmo Word2vec. Como necesitamos que las palabras permanezcan como originales, no las escribimos en minúsculas en la fase de preprocesamiento. Por lo tanto, hay palabras con diferentes variaciones (por ejemplo, "Tierra" y "tierra").
La única forma en que puedo pensar es tomar el promedio de vectores para "Tierra" y "tierra" para crear un solo vector para representar la palabra. (Dado que las dimensiones del vector de características son similares)
¿Es este un método "aceptable"? Si no es así, ¿cuál podría ser una buena manera de manejar este problema?
Nota: Bajar todas las palabras en el preprocesamiento no es una opción por ahora.
Editar: la información sobre si las dimensiones de las características son verdaderamente lineales también sería útil.
Edición 2: Combina ambas respuestas patapouf_ai
y yazhi
dio los mejores resultados. ¿Cómo se combinan estos? El promedio ponderado mejoró los resultados, pero poner las frecuencias de las palabras a través de una función sigmoidea escalada dio los mejores resultados, porque usar las frecuencias de las palabras de manera lineal les da más importancia de la que tienen.
Las palabras "Tierra" y "tierra" pueden tener el mismo significado, pero según el algoritmo word2vec, deriva la información semántica de la posición de las palabras.
Así, comúnmente, "Tierra" aparecerá con mayor frecuencia al comienzo de la oración como sujeto y "tierra" aparecerá principalmente en la forma de objeto al final. Entonces, las palabras adyacentes más cercanas pueden diferir, pero en general ambas oraciones pueden contener palabras como "contaminación, clima, agua, países".
En conclusión, supongo que con un tamaño de ventana más grande, parece preservar la misma información semántica con pequeños cambios en los que la "Tierra" tendrá cierta información del sujeto y la "tierra" tendrá información del objeto. Por lo tanto, el promedio no afectará mucho y parece ser un posible caso. Pero con un tamaño de ventana más bajo, hay una alta probabilidad de que pueda tener diferentes significados.
fuente