Existen muchas técnicas en estadísticas ecológicas para el análisis exploratorio de datos de datos multidimensionales. Estas se llaman técnicas de 'ordenación'. Muchos son iguales o están estrechamente relacionados con técnicas comunes en otras partes de las estadísticas. Quizás el ejemplo prototípico sería el análisis de componentes principales (PCA). Los ecologistas pueden usar PCA y técnicas relacionadas para explorar 'gradientes' (no estoy del todo claro qué es un gradiente, pero he estado leyendo un poco al respecto).
En esta página , el último elemento bajo Análisis de componentes principales (PCA) dice:
- PCA tiene un serio problema para los datos de vegetación: el efecto de herradura. Esto es causado por la curvilinealidad de las distribuciones de especies a lo largo de los gradientes. Dado que las curvas de respuesta de las especies son típicamente unimodales (es decir, muy curvilíneas), los efectos de herradura son comunes.
Más abajo en la página, en Análisis de correspondencia o Promedio recíproco (RA) , se refiere al "efecto de arco":
- RA tiene un problema: el efecto de arco. También es causada por la no linealidad de las distribuciones a lo largo de los gradientes.
- El arco no es tan grave como el efecto de herradura de PCA, porque los extremos del gradiente no están enredados.
¿Alguien puede explicar esto? Recientemente he visto este fenómeno en gráficas que representan de nuevo los datos en un espacio dimensional inferior (a saber, análisis de correspondencia y análisis factorial).
- ¿A qué correspondería un "gradiente" más en general (es decir, en un contexto no ecológico)?
- Si esto sucede con sus datos, ¿es un "problema" ("problema grave")? ¿Para qué?
- ¿Cómo se debe interpretar la salida donde aparece una herradura / arco?
- ¿Es necesario aplicar un remedio? ¿Qué? ¿Ayudarían las transformaciones de los datos originales? ¿Qué pasa si los datos son clasificaciones ordinales?
Las respuestas pueden existir en otras páginas de ese sitio (por ejemplo, para PCA , CA y DCA ). He estado tratando de resolverlos. Pero las discusiones están redactadas con una terminología ecológica y ejemplos suficientemente desconocidos de que es más difícil entender el tema.
fuente
Respuestas:
Q1
Los ecologistas hablan de gradientes todo el tiempo. Hay muchos tipos de gradientes, pero puede ser mejor pensar en ellos como una combinación de las variables que desee o que sean importantes para la respuesta. Por lo tanto, un gradiente podría ser el tiempo, el espacio, la acidez del suelo o los nutrientes, o algo más complejo, como una combinación lineal de un rango de variables requeridas por la respuesta de alguna manera.
Hablamos de gradientes porque observamos especies en el espacio o el tiempo y una gran cantidad de cosas varían con ese espacio o tiempo.
Q2
Llegué a la conclusión de que, en muchos casos, la herradura en PCA no es un problema grave si comprende cómo surge y no hace cosas tontas como tomar PC1 cuando el "gradiente" está realmente representado por PC1 y PC2 (bueno, también se divide en PC más altas, pero es de esperar que una representación en 2-D esté bien).
En CA, creo que pienso lo mismo (ahora me he visto obligado a pensar un poco al respecto). La solución puede formar un arco cuando no hay una segunda dimensión fuerte en los datos, de modo que una versión plegada del primer eje, que satisfaga el requisito de ortogonalidad de los ejes CA, explique más "inercia" que otra dirección en los datos. Esto puede ser más grave, ya que se compone de una estructura en la que con PCA el arco es solo una forma de representar la abundancia de especies en sitios a lo largo de un gradiente dominante único.
Nunca entendí por qué la gente se preocupa tanto por el pedido incorrecto a lo largo de PC1 con una herradura fuerte. Yo respondería que no debería tomar solo PC1 en tales casos, y luego el problema desaparece; los pares de coordenadas en PC1 y PC2 eliminan las reversiones en cualquiera de esos dos ejes.
Q3
Si vi la herradura en un biplot PCA, interpretaría que los datos tienen un solo gradiente dominante o dirección de variación.
Si vi el arco, probablemente concluiría lo mismo, pero sería muy cauteloso al tratar de explicar el eje 2 de CA en absoluto.
No aplicaría DCA: solo retuerce el arco (en las mejores circunstancias) de modo que no se vean rarezas en las parcelas 2-d, pero en muchos casos produce otras estructuras espurias, como diamantes o formas de trompeta. disposición de muestras en el espacio DCA. Por ejemplo:
Vemos un despliegue típico de puntos de muestra hacia la izquierda de la trama.
Q4
Esto sugeriría encontrar una dirección no lineal en el espacio de alta dimensión de los datos. Uno de estos métodos es la curva principal de Hastie y Stuezel, pero hay disponibles otros métodos no lineales que pueden ser suficientes.
Por ejemplo, para algunos datos patológicos.
Vemos una herradura fuerte. La curva principal intenta recuperar este gradiente subyacente o disposición / ordenamiento de muestras a través de una curva suave en las dimensiones m de los datos. La siguiente figura muestra cómo el algoritmo iterativo converge en algo que se aproxima al gradiente subyacente. (Creo que se aleja de los datos en la parte superior de la gráfica para estar más cerca de los datos en dimensiones más altas, y en parte debido al criterio de autoconsistencia para que una curva sea declarada curva principal).
Tengo más detalles, incluido el código en la publicación de mi blog, de donde tomé esas imágenes. Pero el punto principal aquí es que las curvas principales recuperan fácilmente el orden conocido de las muestras, mientras que PC1 o PC2 por sí solo no lo hacen.
En el caso de PCA, es común aplicar transformaciones en ecología. Las transformaciones populares son aquellas en las que se puede pensar que devuelve alguna distancia no euclidiana cuando la distancia euclidiana se calcula en los datos transformados. Por ejemplo, la distancia de Hellinger es
La herradura ha sido conocida y estudiada durante mucho tiempo en ecología; parte de la literatura temprana (más un aspecto más moderno) es
Las principales referencias de curvas principales son
Siendo la primera una presentación muy ecológica.
fuente