Tengo diferentes variables que interactúan dentro de una población. Básicamente, he estado haciendo un inventario de milpiés y midiendo algunos otros valores del terreno, como:
- La especie y la cantidad de especímenes recolectados.
- Los diferentes ambientes donde están los animales.
- el pH
- El porcentaje de material orgánico
- la cantidad de P, K, Mg, Ca, Mn, Fe, Zn, Cu
- Relación Ca + Mg / K
Básicamente, me gustaría usar PCA para determinar qué variables impulsan la variabilidad de las muestras y hacen que el bosque (ambientes) sea diferente; ¿Qué variables debo usar para "variables" y cuáles para "individuos"?
Respuestas:
Como @amoeba mencionó en los comentarios, PCA solo analizará un conjunto de datos y le mostrará los principales patrones (lineales) de variación en esas variables, las correlaciones o covarianzas entre esas variables y las relaciones entre las muestras (las filas ) en su conjunto de datos.
y el segundo componente
Estos componentes se pueden seleccionar libremente de las variables medidas, y las que se eligen son aquellas que explican secuencialmente la mayor cantidad de variación en el conjunto de datos, y que cada combinación lineal es ortogonal (no correlacionada con) las otras.
En una ordenación restringida, tenemos dos conjuntos de datos, pero no somos libres de seleccionar las combinaciones lineales del primer conjunto de datos (los datos químicos del suelo anteriores) que queramos. En cambio, tenemos que seleccionar combinaciones lineales de las variables en el segundo conjunto de datos que mejor expliquen la variación en el primero. Además, en el caso de PCA, el único conjunto de datos es la matriz de respuesta y no hay predictores (se podría pensar que la respuesta se predice a sí misma). En el caso restringido, tenemos un conjunto de datos de respuesta que deseamos explicar con un conjunto de variables explicativas.
Aunque no ha explicado qué variables son la respuesta, normalmente se desea explicar la variación en la abundancia o composición de esas especies (es decir, las respuestas) utilizando las variables explicativas ambientales.
La versión restringida de PCA es una cosa llamada Análisis de Redundancia (RDA) en círculos ecológicos. Esto supone un modelo de respuesta lineal subyacente para la especie, que no es apropiado o solo apropiado si tiene gradientes cortos a lo largo de los cuales la especie responde.
Una alternativa a PCA es una cosa llamada análisis de correspondencia (CA). Esto no tiene restricciones, pero tiene un modelo de respuesta unimodal subyacente, que es algo más realista en términos de cómo las especies responden a lo largo de gradientes más largos. Tenga en cuenta también que CA modela abundancias relativas o composición , PCA modela las abundancias en bruto.
Existe una versión restringida de CA, conocida como análisis de correspondencia restringida o canónica (CCA), que no debe confundirse con un modelo estadístico más formal conocido como análisis de correlación canónica.
Tanto en RDA como en CCA, el objetivo es modelar la variación en la abundancia o composición de especies como una serie de combinaciones lineales de las variables explicativas.
De la descripción parece que su esposa quiere explicar la variación en la composición (o abundancia) de especies de milpiés en términos de las otras variables medidas.
Algunas palabras de advertencia; RDA y CCA son solo regresiones multivariadas; CCA es solo una regresión multivariada ponderada. Todo lo que has aprendido sobre la regresión se aplica, y también hay un par de otras trampas:
entonces mi consejo es el mismo que con la regresión; piense con anticipación cuáles son sus hipótesis e incluya variables que reflejen esas hipótesis. No solo arroje todas las variables explicativas a la mezcla.
Ejemplo
Ordenación sin restricciones
PCA
Mostraré un ejemplo comparando PCA, CA y CCA usando el paquete vegano para R que ayudo a mantener y que está diseñado para adaptarse a este tipo de métodos de ordenación:
vegan no estandariza la inercia, a diferencia de Canoco, por lo que la varianza total es 1826 y los valores propios están en esas mismas unidades y suman 1826
También vemos que el primer valor propio es aproximadamente la mitad de la varianza y con los dos primeros ejes hemos explicado ~ 80% de la varianza total
Se puede extraer un biplot de los puntajes de las muestras y especies en los dos primeros componentes principales.
Hay dos problemas aquí
California
Una AC podría ayudar con estos dos puntos, ya que maneja mejor el gradiente largo debido al modelo de respuesta unimodal, y modela la composición relativa de especies, no de abundancias en bruto.
El código vegano / R para hacer esto es similar al código PCA utilizado anteriormente
Aquí explicamos aproximadamente el 40% de la variación entre sitios en su composición relativa
La parcela conjunta de las especies y los puntajes del sitio ahora está menos dominada por algunas especies
El tipo de PCA o CA que elija debe estar determinado por las preguntas que desee hacer sobre los datos. Por lo general, con los datos de especies, a menudo estamos interesados en la diferencia en el conjunto de especies, por lo que CA es una opción popular. Si tenemos un conjunto de datos de variables ambientales, por ejemplo, química del agua o del suelo, no esperaríamos que respondan de manera unimodal a lo largo de los gradientes, por lo que CA sería inapropiado y PCA (de una matriz de correlación, usando
scale = TRUE
en larda()
llamada) sería más apropiado.Ordenación restringida; CCA
Ahora, si tenemos un segundo conjunto de datos que deseamos usar para explicar patrones en el primer conjunto de datos de especies, debemos usar una ordenación restringida. A menudo, la elección aquí es CCA, pero RDA es una alternativa, al igual que RDA después de la transformación de los datos para permitirle manejar mejor los datos de especies.
Reutilizamos la
cca()
función pero suministramos dos marcos de datos (X
para especies yY
para variables explicativas / predictoras) o una fórmula modelo que enumera la forma del modelo que deseamos ajustar.Para incluir todas las variables que podríamos usar
varechem ~ ., data = varechem
como fórmula para incluir todas las variables, pero como dije anteriormente, esta no es una buena idea en generalEl triplot de la ordenación anterior se produce utilizando el
plot()
métodoPor supuesto, ahora la tarea es determinar cuál de esas variables es realmente importante. También tenga en cuenta que hemos explicado aproximadamente 2/3 de la varianza de las especies utilizando solo 13 variables. Uno de los problemas de usar todas las variables en esta ordenación es que hemos creado una configuración arqueada en los puntajes de muestra y especie, que es puramente un artefacto de usar demasiadas variables correlacionadas.
Si desea saber más sobre esto, consulte la documentación vegana o un buen libro sobre análisis de datos ecológicos multivariados.
Relación con regresión
Es más simple ilustrar el enlace con RDA, pero CCA es igual, excepto que todo involucra sumas marginales de tabla de dos vías de fila y columna como ponderaciones.
En esencia, la RDA es equivalente a la aplicación de PCA a una matriz de valores ajustados a partir de una regresión lineal múltiple ajustada a los valores de cada especie (respuesta) (abundancias, por ejemplo) con predictores dados por la matriz de variables explicativas.
En R podemos hacer esto como
Los valores propios de estos dos enfoques son iguales:
Por alguna razón, no puedo hacer que los puntajes del eje (cargas) coincidan, pero invariablemente estos se escalan (o no), así que necesito analizar exactamente cómo se están haciendo aquí.
No hacemos la RDA a través de
rda()
lo que mostré conlm()
etc., pero usamos una descomposición QR para la parte del modelo lineal y luego SVD para la parte de PCA. Pero los pasos esenciales son los mismos.fuente
fitted()