Diferencia entre PCA y agrupación espectral para un pequeño conjunto de muestras de características booleanas

10

Tengo un conjunto de datos de 50 muestras. Cada muestra se compone de 11 características booleanas (posiblemente correlacionadas). Me gustaría ver de alguna manera cómo visualizar estas muestras en una gráfica 2D y examinar si hay grupos / agrupaciones entre las 50 muestras.

He intentado los siguientes dos enfoques:

(a) Ejecute PCA en la matriz 50x11 y seleccione los dos primeros componentes principales. Proyecte los datos en la trama 2D y ejecute K-means simples para identificar grupos.

(b) Construya una matriz de similitud de 50x50 (coseno). Ejecute el agrupamiento espectral para la reducción de dimensionalidad seguido de K-means nuevamente.

¿Cuál es la diferencia conceptual entre hacer PCA directo versus usar los valores propios de la matriz de similitud? ¿Es uno mejor que el otro?

Además, ¿hay mejores maneras de visualizar dichos datos en 2D? Dado que el tamaño de mi muestra siempre está limitado a 50 y mi conjunto de características siempre está en el rango de 10-15, estoy dispuesto a probar múltiples enfoques sobre la marcha y elegir el mejor.

Pregunta relacionada: Agrupar muestras por agrupamiento o PCA

user2602740
fuente

Respuestas:

9

¿Cuál es la diferencia conceptual entre hacer PCA directo versus usar los valores propios de la matriz de similitud?

PCA se realiza en una matriz de covarianza o correlación, pero la agrupación espectral puede tomar cualquier matriz de similitud (por ejemplo, construida con similitud de coseno) y encontrar grupos allí.

En segundo lugar, los algoritmos de agrupación espectral se basan en la partición de gráficos (generalmente se trata de encontrar los mejores cortes del gráfico), mientras que PCA encuentra las direcciones que tienen la mayor parte de la variación. Aunque en ambos casos terminamos encontrando los vectores propios, los enfoques conceptuales son diferentes.

Y finalmente, veo que la PCA y el agrupamiento espectral tienen diferentes propósitos: uno es una técnica de reducción de dimensionalidad y el otro es más un enfoque para el agrupamiento (pero se hace a través de la reducción de dimensionalidad)

Alexey Grigorev
fuente
5

Para las características booleanas (es decir, categóricas con dos clases), una buena alternativa al uso de PCA consiste en usar el Análisis de Correspondencia Múltiple (MCA), que es simplemente la extensión de PCA a variables categóricas (ver hilo relacionado ). Para algunos antecedentes sobre MCA, los documentos son Husson et al. (2010) , o Abdi y Valentin (2007) . Un excelente paquete R para realizar MCA es FactoMineR . Le proporciona herramientas para trazar mapas bidimensionales de las cargas de las observaciones en los componentes principales, lo cual es muy perspicaz.

A continuación hay dos ejemplos de mapas de uno de mis proyectos de investigación anteriores (trazados con ggplot2). Tuve solo alrededor de 60 observaciones y dio buenos resultados. El primer mapa representa las observaciones en el espacio PC1-PC2, el segundo mapa en el espacio PC3-PC4 ... Las variables también están representadas en el mapa, lo que ayuda a interpretar el significado de las dimensiones. Recopilar la información de varios de estos mapas puede darle una imagen bastante agradable de lo que está sucediendo en sus datos.

ingrese la descripción de la imagen aquí

En el sitio web vinculado anteriormente, también encontrará información sobre un procedimiento novedoso, HCPC, que significa Agrupación jerárquica en componentes principales, y que podría ser de su interés. Básicamente, este método funciona de la siguiente manera:

  • realizar un MCA,
  • retenga las primeras dimensiones (donde , con su número original de características). Este paso es útil porque elimina algo de ruido y, por lo tanto, permite una agrupación más estable,kk<pp
  • realizar una agrupación jerárquica aglomerativa (ascendente) en el espacio de las PC retenidas. Como usa las coordenadas de las proyecciones de las observaciones en el espacio de la PC (números reales), puede usar la distancia euclidiana, con el criterio de Ward para el enlace (aumento mínimo en la varianza dentro del grupo). Puedes cortar el dendograma a la altura que desees o dejar que la función R se corte si o en función de alguna heurística,
  • (opcional) estabilice los grupos realizando una agrupación de K-means. La configuración inicial viene dada por los centros de los clústeres encontrados en el paso anterior.

Luego, tiene muchas formas de investigar los grupos (características más representativas, individuos más representativos, etc.)

Antoine
fuente