¿Cuáles son las diferencias entre el análisis semántico latente (LSA), la indexación semántica latente (LSI) y la descomposición de valores singulares (SVD)?

15

Estos términos se mezclan mucho, pero me gustaría saber cuáles cree que son las diferencias, si las hay.

Gracias

Neil McGuigan
fuente

Respuestas:

12

LSA y LSI se usan principalmente como sinónimos, y la comunidad de recuperación de información generalmente se refiere a él como LSI. LSA / LSI utiliza SVD para descomponer la matriz de documentos de término A en una matriz de términos y conceptos U, una matriz de valores singulares S y una matriz de documentos de conceptos V en la forma: A = USV '. La página de wikipedia tiene una descripción detallada de la indexación semántica latente .

ébano1
fuente
8

Notablemente, mientras que LSA y LSI usan SVD para hacer su magia, hay un método computacional y conceptualmente más simple llamado HAL (Hyperspace Analogue to Language) que se filtra a través del texto haciendo un seguimiento de los contextos anteriores y posteriores. Los vectores se extraen de estas matrices de coincidencia (a menudo ponderadas) y se seleccionan palabras específicas para indexar el espacio semántico. En muchos sentidos, se me da a entender que funciona tan bien como LSA sin requerir el paso matemático / conceptualmente complejo de SVD. Ver Lund & Burgess, 1996 para más detalles.

russellpierce
fuente
44
... recapitulando el trabajo previo de Finch y Chater (1992, 1994), Schütze (1993) y otros. HAL, LSA y otros trabajos de la técnica anterior al generar una medida de similitud para las palabras al calcular su similitud contextual. (Esta es la similitud de 'segundo orden' de Shephard: la similitud de 'primer orden' es cuando la palabra a aparece cerca de la palabra b; la similitud de 'segundo orden' es que la palabra a aparece cerca del mismo tipo de palabras que la palabra b).
conjugateprior
33
Comparación y contraste: para LSA, el contexto es el documento completo. Para HAL y otros, es una ventana de texto que rodea la palabra objetivo. LSA mide la distancia en un subespacio lineal extraído mediante SVD / PCA, y el otro trata las distancias en el espacio original de los recuentos de palabras circundantes.
conjugateprior
6

NMF y SVD son algoritmos de factorización de matriz. Wikipedia tiene información relevante sobre NMF .

UNUN=UNUN

Los otros respondedores han cubierto LSI / LSA ...

Emre
fuente
debería ser matriz de covarianza, ¿verdad? no la matriz de correlación.
Rafael
Sí, a menos que centre sus variables primero.
Emre
después de la normalización de las variables, se convierte en matriz de correlación?
Rafael
La normalización se centra en la escala, así que eso es diferente.
Emre