Estoy investigando varias técnicas utilizadas en la agrupación de documentos y me gustaría aclarar algunas dudas sobre PCA (análisis de componentes principales) y LSA (análisis semántico latente).
Lo primero: ¿cuáles son las diferencias entre ellos? Sé que en PCA, la descomposición SVD se aplica a la matriz de covarianza de términos, mientras que en LSA es la matriz de documentos a término. ¿Hay algo mas?
Segundo: ¿cuál es su papel en el procedimiento de agrupación de documentos? De lo que he leído hasta ahora, deduzco que su propósito es la reducción de la dimensionalidad, la reducción del ruido y la incorporación de relaciones entre términos en la representación. Después de ejecutar PCA o LSA, se aplican algoritmos tradicionales como k-means o métodos aglomerativos en el espacio de término reducido y se utilizan medidas de similitud típicas, como la distancia cosenoidal. Por favor corrígeme si estoy equivocado.
Tercero: ¿importa si los vectores de término TF / IDF se normalizan antes de aplicar PCA / LSA o no? ¿Y deberían normalizarse nuevamente después de eso?
Cuarto: supongamos que he realizado algunos clusters en el término espacio reducido por LSA / PCA. Ahora, ¿cómo debo asignar etiquetas a los grupos de resultados? Dado que las dimensiones no corresponden a palabras reales, es un problema bastante difícil. La única idea que se me ocurre es calcular los centroides para cada grupo utilizando vectores de términos originales y seleccionando términos con pesos superiores, pero no suena muy eficiente. ¿Hay algunas soluciones específicas para este problema? No pude encontrar nada.
Estaré muy agradecido por aclarar estos problemas.
fuente
Respuestas:
fuente
LSI se calcula en la matriz de términos y documentos, mientras que PCA se calcula en la matriz de covarianza, lo que significa que LSI intenta encontrar el mejor subespacio lineal para describir el conjunto de datos, mientras que PCA intenta encontrar el mejor subespacio lineal paralelo.
fuente
Solo una extensión de la respuesta de russellpierce.
1) Esencialmente LSA es PCA aplicado a datos de texto. Cuando se usa SVD para PCA, no se aplica a la matriz de covarianza sino a la matriz de muestra de características directamente, que es solo la matriz de documentos a término en LSA. La diferencia es que PCA a menudo requiere una normalización en función de las características de los datos, mientras que LSA no.
Hay una buena conferencia de Andrew Ng que ilustra las conexiones entre PCA y LSA.
2/3) Dado que los datos del documento son de varias longitudes, generalmente es útil normalizar la magnitud. Aquí, la normalización a nivel de muestra no se debe utilizar como normalización a nivel de características. En la práctica, me pareció útil normalizar tanto antes como después de LSI.
Si la métrica del algoritmo de agrupamiento no depende de la magnitud (por ejemplo, la distancia del coseno), se puede omitir el último paso de normalización.
4) Considera que, en general, es un problema difícil obtener etiquetas significativas de los clústeres. Algunas personas extraen términos / frases que maximizan la diferencia en la distribución entre el corpus y el grupo. Otra forma es usar clústeres semi-supervisados con etiquetas predefinidas.
fuente