LSA vs. PCA (agrupación de documentos)

25

Estoy investigando varias técnicas utilizadas en la agrupación de documentos y me gustaría aclarar algunas dudas sobre PCA (análisis de componentes principales) y LSA (análisis semántico latente).

Lo primero: ¿cuáles son las diferencias entre ellos? Sé que en PCA, la descomposición SVD se aplica a la matriz de covarianza de términos, mientras que en LSA es la matriz de documentos a término. ¿Hay algo mas?

Segundo: ¿cuál es su papel en el procedimiento de agrupación de documentos? De lo que he leído hasta ahora, deduzco que su propósito es la reducción de la dimensionalidad, la reducción del ruido y la incorporación de relaciones entre términos en la representación. Después de ejecutar PCA o LSA, se aplican algoritmos tradicionales como k-means o métodos aglomerativos en el espacio de término reducido y se utilizan medidas de similitud típicas, como la distancia cosenoidal. Por favor corrígeme si estoy equivocado.

Tercero: ¿importa si los vectores de término TF / IDF se normalizan antes de aplicar PCA / LSA o no? ¿Y deberían normalizarse nuevamente después de eso?

Cuarto: supongamos que he realizado algunos clusters en el término espacio reducido por LSA / PCA. Ahora, ¿cómo debo asignar etiquetas a los grupos de resultados? Dado que las dimensiones no corresponden a palabras reales, es un problema bastante difícil. La única idea que se me ocurre es calcular los centroides para cada grupo utilizando vectores de términos originales y seleccionando términos con pesos superiores, pero no suena muy eficiente. ¿Hay algunas soluciones específicas para este problema? No pude encontrar nada.

Estaré muy agradecido por aclarar estos problemas.

usuario1315305
fuente
LSA o LSI: ¿igual o diferente? Si quiere decir LSI = indexación semántica latente, corrija y estandarice.
Nick Cox
3
¿Son LSI y LSA dos cosas diferentes? Pensé que son equivalentes.
user1315305
1
No tengo idea; el punto es (por favor) usar un término para una cosa y no dos; de lo contrario, su pregunta es aún más difícil de entender.
Nick Cox
Ok, lo corregí ya. Gracias por señalarlo :)
user1315305
3
Wikipedia da la impresión de que LSA = LSI. Pero LSI es análisis de correspondencia (CA). CA es un término de análisis estadístico, como PCA, mientras que LSI / LSA es un término de minería de texto. Por lo tanto, busque artículos que comparen PCA y CA.
ttnphns

Respuestas:

8
  1. PCA y LSA son análisis que usan SVD. PCA es una clase general de análisis y, en principio, podría aplicarse a cuerpos de texto enumerados de varias maneras. En contraste, LSA es un medio muy claramente especificado para analizar y reducir texto. Ambos aprovechan la idea de que el significado puede extraerse del contexto. En LSA, el contexto se proporciona en los números a través de una matriz de documentos a término. En el PCA, el contexto propuesto se proporciona en los números al proporcionar una matriz de covarianza de términos (los detalles de la generación de los cuales probablemente pueden brindarle mucho más información sobre la relación entre su PCA y LSA). Es posible que desee mirar aquí para más detalles.
  2. Básicamente estás en camino aquí. Las razones exactas por las que se usan dependerán del contexto y los objetivos de la persona que juega con los datos.
  3. La respuesta probablemente dependerá de la implementación del procedimiento que esté utilizando.
  4. Cuidadosamente y con gran arte. La mayoría considera que las dimensiones de estos modelos semánticos son ininterpretables. Tenga en cuenta que casi con toda seguridad espera que haya más de una dimensión subyacente. Cuando hay más de una dimensión en el análisis factorial, rotamos la solución factorial para producir factores interprables. Sin embargo, por alguna razón, esto no se hace típicamente para estos modelos. Su enfoque suena como una forma de principios para comenzar su arte ... aunque no estoy seguro de que la escala entre dimensiones sea lo suficientemente similar como para confiar en una solución de análisis de clúster. Si desea jugar con el significado, también puede considerar un enfoque más simple en el que los vectores tengan una relación directa con palabras específicas, por ejemplo, HAL .
russellpierce
fuente
6

LSI se calcula en la matriz de términos y documentos, mientras que PCA se calcula en la matriz de covarianza, lo que significa que LSI intenta encontrar el mejor subespacio lineal para describir el conjunto de datos, mientras que PCA intenta encontrar el mejor subespacio lineal paralelo.

Gaurav Singh
fuente
44
Nick, ¿podrías proporcionar más detalles sobre la diferencia entre el mejor subespacio lineal y el mejor subespacio lineal paralelo? ¿Está esto relacionado con la ortogonalidad? ¿Debo hacer esto como una nueva pregunta?
russellpierce
1
¿Mejor en qué sentido? ¿Minimizando la norma Frobinius del error de reconstrucción? En ese caso, seguro que me parece PCA.
Andrew M
2

Solo una extensión de la respuesta de russellpierce.

1) Esencialmente LSA es PCA aplicado a datos de texto. Cuando se usa SVD para PCA, no se aplica a la matriz de covarianza sino a la matriz de muestra de características directamente, que es solo la matriz de documentos a término en LSA. La diferencia es que PCA a menudo requiere una normalización en función de las características de los datos, mientras que LSA no.

Hay una buena conferencia de Andrew Ng que ilustra las conexiones entre PCA y LSA.

2/3) Dado que los datos del documento son de varias longitudes, generalmente es útil normalizar la magnitud. Aquí, la normalización a nivel de muestra no se debe utilizar como normalización a nivel de características. En la práctica, me pareció útil normalizar tanto antes como después de LSI.

Si la métrica del algoritmo de agrupamiento no depende de la magnitud (por ejemplo, la distancia del coseno), se puede omitir el último paso de normalización.

4) Considera que, en general, es un problema difícil obtener etiquetas significativas de los clústeres. Algunas personas extraen términos / frases que maximizan la diferencia en la distribución entre el corpus y el grupo. Otra forma es usar clústeres semi-supervisados ​​con etiquetas predefinidas.

dontloo
fuente