Estoy intentando realizar la agrupación a nivel de documento. Construí la matriz de frecuencia de término-documento y estoy tratando de agrupar estos vectores de alta dimensión usando k-means. En lugar de agrupar directamente, lo que hice fue aplicar primero la descomposición vectorial singular de LSA (Análisis semántico latente) para obtener las matrices U, S, Vt, seleccioné un umbral adecuado usando el diagrama de pantalla y apliqué el agrupamiento en las matrices reducidas (específicamente Vt porque me da una información de documento conceptual) que parecía estar dando buenos resultados.
Escuché que algunas personas dicen que SVD (descomposición vectorial singular) es un agrupamiento (mediante el uso de la medida de similitud de coseno, etc.) y no estaba seguro de si podría aplicar k-means en la salida de SVD. Pensé que era lógicamente correcto porque SVD es una técnica de reducción de dimensionalidad, me da un montón de nuevos vectores. k-means, por otro lado, tomará el número de grupos como entrada y dividirá estos vectores en el número especificado de grupos. ¿Es defectuoso este procedimiento o hay formas de mejorarlo? ¿Alguna sugerencia?
Respuestas:
Esta no es una respuesta completa, la pregunta que debe hacerse es "¿qué tipo de distancias se conservan al hacer la reducción de dimensionalidad?". Dado que los algoritmos de agrupamiento como K-means operan solo en distancias, la métrica de distancia correcta para usar (teóricamente) es la métrica de distancia que se conserva mediante la reducción de dimensionalidad. De esta forma, el paso de reducción de dimensionalidad puede verse como un atajo computacional para agrupar los datos en un espacio dimensional inferior. (también para evitar mínimos locales, etc.)
Aquí hay muchas sutilezas que no pretendo entender (distancias locales versus distancias globales, cómo se distorsionan las distancias relativas, etc.) pero creo que esta es la dirección correcta para pensar teóricamente sobre estas cosas.
fuente
En respuesta a su título "¿Cuándo combinamos la reducción de dimensionalidad con la agrupación?" en lugar de la pregunta completa. Una posible razón es obvia: cuando queremos asegurar valores atípicos. K-significa algo, si sin una sugerencia de centros iniciales, toma k la mayoría de los puntos separados en la nube como centros iniciales, y es probable que estos sean valores atípicos. Preaccionar por PCA neutraliza los valores atípicos que se encuentran a lo largo de los componentes junior, al proyectarlos en los pocos componentes senior que se retienen en PCA.
fuente