¿Debo normalizar los vectores de palabras de word2vec antes de usarlos?

38

Después de entrenar vectores de palabras con word2vec, ¿es mejor normalizarlos antes de usarlos para algunas aplicaciones posteriores? Es decir, ¿cuáles son los pros / contras de normalizarlos?

Franck Dernoncourt
fuente
En una tarea de similitud, la normalización mejoró un poco el rendimiento de mi sistema.
Keramat
Relacionado: stackoverflow.com/q/36034454/1709587
Mark Amery

Respuestas:

30

Cuando las aplicaciones posteriores solo se preocupan por la dirección de los vectores de palabras (por ejemplo, solo prestan atención a la similitud del coseno de dos palabras), luego se normalizan y se olvidan de la longitud.

Sin embargo, si las aplicaciones posteriores pueden (o necesitan) considerar aspectos más sensibles, como el significado de las palabras o la consistencia en el uso de las palabras (ver más abajo), entonces la normalización podría no ser una buena idea.


De Levy et al., 2015 (y, en realidad, la mayor parte de la literatura sobre incrustaciones de palabras):

Los vectores se normalizan a la longitud de la unidad antes de que se usen para el cálculo de similitud, lo que hace que la similitud del coseno y el producto de punto sean equivalentes.

También de Wilson y Schakel, 2015 :

La mayoría de las aplicaciones de incrustaciones de palabras exploran no los vectores de palabras en sí, sino las relaciones entre ellos para resolver, por ejemplo, las tareas de similitud y relación de palabras. Para estas tareas, se descubrió que el uso de vectores de palabras normalizados mejora el rendimiento. Por lo tanto, la longitud del vector de palabra generalmente se ignora.

La normalización es equivalente a perder la noción de longitud. Es decir, una vez que normaliza los vectores de palabras, olvida la longitud (norma, módulo) que tenían justo después de la fase de entrenamiento.

Sin embargo, a veces vale la pena tener en cuenta la longitud original de los vectores de palabras.

Schakel y Wilson, 2015 observaron algunos datos interesantes sobre la longitud de los vectores de palabras:

Una palabra que se usa consistentemente en un contexto similar estará representada por un vector más largo que una palabra de la misma frecuencia que se usa en diferentes contextos.

No solo la dirección, sino también la longitud de los vectores de palabras lleva información importante.

La longitud del vector de palabras proporciona, en combinación con la frecuencia de los términos, una medida útil de la importancia de las palabras.

turdus-merula
fuente
Podemos elaborar "se encontró que el uso de vectores de palabras normalizados mejora el rendimiento"? ¿No es la normalización implica un cálculo adicional?
neuritas
44
@neurite, que ese contexto, un mejor rendimiento se refiere a una mejor puntuación en las tareas de evaluación.
Turdus merula-