¿Word2Vec y Doc2Vec son representación distribucional o representación distribuida?

10

He leído que la representación distributiva se basa en la hipótesis distributiva de que las palabras que aparecen en un contexto similar tienden a tener significados similares.

Word2Vec y Doc2Vec están modelados de acuerdo con esta hipótesis. Pero, en el documento original, incluso se titulan como Distributed representation of words and phrasesy Distributed representation of sentences and documents. Entonces, ¿estos algoritmos se basan en la representación distribucional o la representación distribuida?

¿Qué tal otros modelos como LDA y LSA?

yazhi
fuente

Respuestas:

5

Efectivamente, Word2Vec / Doc2Vec se basa en distributional hypothesisdonde el contexto para cada palabra es sus palabras cercanas. Del mismo modo, LSA toma el documento completo como contexto. Ambas técnicas resuelven el word embeddingproblema: incrustar palabras en un espacio vectorial continuo mientras se mantienen juntas las palabras semánticamente relacionadas.

Por otro lado, LDA no está hecho para resolver el mismo problema. Se ocupan de un problema diferente llamado topic modeling, que es encontrar temas latentes en un conjunto de documentos.

Tu N.
fuente
Recibí una respuesta de grupos de Google que indica que, tanto distribuida como distribucional en diferentes perspectivas. Distribucional en términos de la hipótesis utilizada y distribuida en términos de las características distribuidas en el espacio vectorial.
Yazhi
vkingmaleroyalvqueenfemaleroyalvkingvqueenvmanvwoman
2

Turian, Joseph, Lev Ratinov y Yoshua Bengio. " Representaciones de palabras: un método simple y general para el aprendizaje semi-supervisado ". Actas de la 48ª reunión anual de la asociación de lingüística computacional. Association for Computational Linguistics, 2010. define las representaciones distribucionales y las representaciones distribuidas de la siguiente manera:

  • FW×CWFwwFcFFwWFwFd<<CFwwdgF

  • Una representación distribuida es densa, de baja dimensión y de valor real. Las representaciones de palabras distribuidas se denominan incrustaciones de palabras. Cada dimensión de la incrustación representa una característica latente de la palabra, con suerte capturando propiedades sintácticas y semánticas útiles. Una representación distribuida es compacta, en el sentido de que puede representar un número exponencial de grupos en el número de dimensiones.

FYI: ¿Cuál es la diferencia entre vectores de palabras, representaciones de palabras e incrustaciones de vectores?

Franck Dernoncourt
fuente
2
La misma confusión permanece en la respuesta también. Tiene propiedades de ambas representaciones. Veamos qué tiene en común. Distributional: Tiene una matriz de tamaño WxC y luego se reduce a Wxd, donde d es el tamaño del vector de incrustación. Utiliza tamaños de ventana para determinar el contexto. Distributed: Vectores densos de baja dimensión. Conserva características latentes (propiedades semánticas) en esas dimensiones.
yazhi
2

La respuesta de Andrey Kutuzov a través de grupos de Google se sintió satisfactoria

Yo diría que los algoritmos word2vec se basan en ambos.

Cuando la gente dice distributional representation, generalmente se refieren al aspecto lingüístico: el significado es contexto, conoce la palabra por su compañía y otras citas famosas.

Pero cuando la gente dice distributed representation, en su mayoría no tiene nada que ver con la lingüística. Se trata más del aspecto informático. Si entiendo Mikolov y otros correctamente, la palabra distributeden sus documentos significa que cada componente individual de una representación vectorial no tiene ningún significado propio. Las características interpretables (por ejemplo, los contextos de palabras en el caso de word2vec) están ocultas y distributedentre los componentes vectoriales no interpretables: cada componente es responsable de varias características interpretables, y cada característica interpretable está vinculada a varios componentes.

Entonces, word2vec (y doc2vec) usa representaciones distribuidas técnicamente, como una forma de representar la semántica léxica. Y al mismo tiempo, se basa conceptualmente en la hipótesis de distribución: funciona solo porque la hipótesis de distribución es verdadera (los significados de las palabras se correlacionan con sus contextos típicos).

Pero, por supuesto, a menudo los términos distributedy distributionalse usan indistintamente, lo que aumenta el malentendido :)

yazhi
fuente