Uso de análisis de componentes principales vs análisis de correspondencia

9

Estoy analizando un conjunto de datos sobre comunidades intermareales. Los datos son porcentajes de cobertura (de algas, percebes, mejillones, etc.) en cuadrantes. Estoy acostumbrado a pensar en el análisis de correspondencia (CA) en términos de conteo de especies y el análisis de componentes principales (PCA) como algo más útil para las tendencias ambientales lineales (no de especies). Realmente no he tenido suerte de averiguar si PCA o CA encajarían mejor en el porcentaje de cobertura (no puedo encontrar ningún documento), y ni siquiera estoy seguro de cómo se distribuiría algo con un límite de hasta el 100% ?

Estoy familiarizado con la directriz aproximada de que si la longitud del primer eje de análisis de correspondencia (DCA) destendido es mayor que 2, puede suponer con seguridad que se debe usar CA. La longitud del eje DCA 1 era 2,17, lo que no encuentro útil.

HFBrowning
fuente
3
Tanto PCA como CA están relacionadas y ambas pueden basarse en el algoritmo SVD. La diferencia formal fundamental (no mencionada en la respuesta profunda de @ Gavin) es que PCA descompone las relaciones entre columnas solamente (por ejemplo, descomponiendo su matriz de covarianza), tratando las filas como "casos"; mientras que CA descompone columnas y filas simultáneamente, tratándolas simétricamente, como "categorías" de tabulación cruzada. Por lo tanto, el biplot dejado por CA y el cuasi-biplot (cargas + puntajes) que podrían trazarse después de PCA proporcionan información conceptualmente bastante diferente.
ttnphns

Respuestas:

9

PCA trabaja en los valores donde CA trabaja en los valores relativos. Ambos están bien para los datos de abundancia relativa del tipo que menciona (con una advertencia importante, ver más adelante). Con% de datos ya tiene una medida relativa, pero aún habrá diferencias. Pregúntese

  • ¿desea enfatizar el patrón en las especies / taxones abundantes (es decir, los que tienen un gran porcentaje de cobertura), o
  • ¿Quieres enfocarte en los patrones de composición relativa?

Si es lo primero, use PCA. Si este último usa CA. Lo que quiero decir con las dos preguntas es si querrías

A = {50, 20, 10}
B = { 5,  2,  1}

ser considerado diferente o igual? Ay Bson dos muestras y los valores son el% de cobertura de los tres taxones mostrados. (Este ejemplo resultó mal, ¡suponga que hay terreno desnudo! ;-) PCA consideraría esto muy diferente debido a la distancia euclidiana utilizada, pero CA consideraría que estas dos muestras son muy similares porque tienen el mismo perfil relativo.

La gran advertencia aquí es la naturaleza compositiva cerrada de los datos. Si tiene unos pocos grupos (arena, limo, arcilla, por ejemplo) que suman 1 (100%), entonces ninguno de los enfoques es correcto y podría pasar a un análisis más apropiado a través de Aitchison's Log-ratio PCA, que fue diseñado para composición cerrada datos. (Para hacer esto, IIRC necesita centrarse por filas y columnas, y el registro transforma los datos). También hay otros enfoques. Si usa R, entonces un libro que sería útil que se Analizando los datos de composición con R .

Gavin Simpson
fuente
Como siempre, una respuesta realmente excelente Gavin. ¡Gracias! Eso aclara mucho las cosas, y usaré PCA entonces. Dado que la comunidad intermareal es tridimensional, el porcentaje de cobertura en realidad fue del 100% en algunos casos cuando los organismos crecieron unos sobre otros. Sin embargo, esta no es la forma compositiva cerrada de la que estás hablando, ¿verdad?
HFBrowning
No, no es de lo que está hablando. Por cerrado creo que se refiere a un sistema en el que con tres especies A, B, C, tienes% C = 100% -% B -% A
Pertinax
¿Y qué hay del DCA?
Darwin PC
DCA es una versión desordenada de CA, por lo que se aplican los mismos principios generales. DCA está haciendo una tortura extraña de los datos y no creo que tengamos que molestarnos como método en nuestra caja de herramientas hoy, pero las opiniones de los demás variarán al respecto.
Gavin Simpson