¿Cuándo combinamos la reducción de dimensionalidad con la agrupación?

16

Estoy intentando realizar la agrupación a nivel de documento. Construí la matriz de frecuencia de término-documento y estoy tratando de agrupar estos vectores de alta dimensión usando k-means. En lugar de agrupar directamente, lo que hice fue aplicar primero la descomposición vectorial singular de LSA (Análisis semántico latente) para obtener las matrices U, S, Vt, seleccioné un umbral adecuado usando el diagrama de pantalla y apliqué el agrupamiento en las matrices reducidas (específicamente Vt porque me da una información de documento conceptual) que parecía estar dando buenos resultados.

Escuché que algunas personas dicen que SVD (descomposición vectorial singular) es un agrupamiento (mediante el uso de la medida de similitud de coseno, etc.) y no estaba seguro de si podría aplicar k-means en la salida de SVD. Pensé que era lógicamente correcto porque SVD es una técnica de reducción de dimensionalidad, me da un montón de nuevos vectores. k-means, por otro lado, tomará el número de grupos como entrada y dividirá estos vectores en el número especificado de grupos. ¿Es defectuoso este procedimiento o hay formas de mejorarlo? ¿Alguna sugerencia?

Leyenda
fuente
buena pregunta. personalmente he estado pensando en estas cosas. Pero no tengo una buena respuesta.
suncoolsu
1
Existen métodos que realizan simultáneamente la reducción de la dimensionalidad y la agrupación. Estos métodos buscan una representación de baja dimensión elegida de manera óptima para facilitar la identificación de grupos. Por ejemplo, vea el paquete clustrd en R y las referencias asociadas.
Nat

Respuestas:

6

Esta no es una respuesta completa, la pregunta que debe hacerse es "¿qué tipo de distancias se conservan al hacer la reducción de dimensionalidad?". Dado que los algoritmos de agrupamiento como K-means operan solo en distancias, la métrica de distancia correcta para usar (teóricamente) es la métrica de distancia que se conserva mediante la reducción de dimensionalidad. De esta forma, el paso de reducción de dimensionalidad puede verse como un atajo computacional para agrupar los datos en un espacio dimensional inferior. (también para evitar mínimos locales, etc.)

Aquí hay muchas sutilezas que no pretendo entender (distancias locales versus distancias globales, cómo se distorsionan las distancias relativas, etc.) pero creo que esta es la dirección correcta para pensar teóricamente sobre estas cosas.

gabgoh
fuente
+1 Esa es una versión muy interesante de la pregunta. En ese caso, ¿se puede considerar a Euclidean una de esas métricas? A medida que se reduce la dimensionalidad, los puntos se proyectan en un espacio dimensional inferior, pero eso podría significar que se puede perder la noción de distancia. Me está costando ver cómo se pueden preservar las distancias al usar reducciones como esta.
Leyenda
1
Creo que esta respuesta es básicamente correcta. Desea encontrar algo de incrustación en un espacio más pequeño que conserva las distancias (para alguna noción de distancia). Dos buenos algoritmos para verificar son Isomap y Locally-Linear Embedded . La "preservación del vecindario" parece un buen enfoque si su objetivo es la agrupación.
Stumpy Joe Pete
5

En respuesta a su título "¿Cuándo combinamos la reducción de dimensionalidad con la agrupación?" en lugar de la pregunta completa. Una posible razón es obvia: cuando queremos asegurar valores atípicos. K-significa algo, si sin una sugerencia de centros iniciales, toma k la mayoría de los puntos separados en la nube como centros iniciales, y es probable que estos sean valores atípicos. Preaccionar por PCA neutraliza los valores atípicos que se encuentran a lo largo de los componentes junior, al proyectarlos en los pocos componentes senior que se retienen en PCA.

ttnphns
fuente