¿Qué es el "efecto de herradura" y / o el "efecto de arco" en el análisis de correspondencia / PCA?

Existen muchas técnicas en estadísticas ecológicas para el análisis exploratorio de datos de datos multidimensionales. Estas se llaman técnicas de 'ordenación'. Muchos son iguales o están estrechamente relacionados con técnicas comunes en otras partes de las estadísticas. Quizás el ejemplo prototípico sería el análisis de componentes principales (PCA). Los ecologistas pueden usar PCA y técnicas relacionadas para explorar 'gradientes' (no estoy del todo claro qué es un gradiente, pero he estado leyendo un poco al respecto).

En esta página , el último elemento bajo Análisis de componentes principales (PCA) dice:

PCA tiene un serio problema para los datos de vegetación: el efecto de herradura. Esto es causado por la curvilinealidad de las distribuciones de especies a lo largo de los gradientes. Dado que las curvas de respuesta de las especies son típicamente unimodales (es decir, muy curvilíneas), los efectos de herradura son comunes.

Más abajo en la página, en Análisis de correspondencia o Promedio recíproco (RA) , se refiere al "efecto de arco":

RA tiene un problema: el efecto de arco. También es causada por la no linealidad de las distribuciones a lo largo de los gradientes.

El arco no es tan grave como el efecto de herradura de PCA, porque los extremos del gradiente no están enredados.

¿Alguien puede explicar esto? Recientemente he visto este fenómeno en gráficas que representan de nuevo los datos en un espacio dimensional inferior (a saber, análisis de correspondencia y análisis factorial).

¿A qué correspondería un "gradiente" más en general (es decir, en un contexto no ecológico)?
Si esto sucede con sus datos, ¿es un "problema" ("problema grave")? ¿Para qué?
¿Cómo se debe interpretar la salida donde aparece una herradura / arco?
¿Es necesario aplicar un remedio? ¿Qué? ¿Ayudarían las transformaciones de los datos originales? ¿Qué pasa si los datos son clasificaciones ordinales?

Las respuestas pueden existir en otras páginas de ese sitio (por ejemplo, para PCA , CA y DCA ). He estado tratando de resolverlos. Pero las discusiones están redactadas con una terminología ecológica y ejemplos suficientemente desconocidos de que es más difícil entender el tema.

pca eda ecology correspondence-analysis gung - Restablece a Monica
fuente

(+1) Encontré una respuesta razonablemente clara en ordination.okstate.edu/PCA.htm . La explicación de "curvilinealidad" en su cita es totalmente errónea, que es lo que la hace tan confusa.

whuber

Ver también Diaconis, et al. (2008), Herraduras en escalamiento multidimensional y métodos de kernel local , Ann. Appl. Stat. vol. 2, no. 3, 777-807.

cardenal

He intentado responder a sus preguntas, pero no estoy seguro de qué tan bien he logrado que, dado que soy ecologista y gradiente, sea cómo pienso en estas cosas.

Restablecer Monica - G. Simpson

@whuber: La explicación citada de "curvilinearidad" puede ser confusa y no muy clara, pero no creo que sea "totalmente errónea". Si las abundancias de la especie en función de la posición a lo largo del verdadero "gradiente" (usando un ejemplo de su enlace) fueran todas lineales (quizás corrompidas por algún ruido), entonces la nube de puntos sería (aproximadamente) unidimensional y PCA Lo encontraría. La nube de puntos se dobla / curva porque las funciones no son lineales. Un caso especial de gaussianos desplazados conduce a una herradura.

ameba dice Reinstate Monica

@Amoeba Sin embargo, el efecto de herradura no resulta de la curvilinealidad de los gradientes de especies: surge de las no linealidades en las proporciones de distribución . La cita, al atribuir el efecto a las formas de los propios gradientes, no identifica la causa del fenómeno correctamente.

whuber

Q1

Los ecologistas hablan de gradientes todo el tiempo. Hay muchos tipos de gradientes, pero puede ser mejor pensar en ellos como una combinación de las variables que desee o que sean importantes para la respuesta. Por lo tanto, un gradiente podría ser el tiempo, el espacio, la acidez del suelo o los nutrientes, o algo más complejo, como una combinación lineal de un rango de variables requeridas por la respuesta de alguna manera.

Hablamos de gradientes porque observamos especies en el espacio o el tiempo y una gran cantidad de cosas varían con ese espacio o tiempo.

Q2

Llegué a la conclusión de que, en muchos casos, la herradura en PCA no es un problema grave si comprende cómo surge y no hace cosas tontas como tomar PC1 cuando el "gradiente" está realmente representado por PC1 y PC2 (bueno, también se divide en PC más altas, pero es de esperar que una representación en 2-D esté bien).

En CA, creo que pienso lo mismo (ahora me he visto obligado a pensar un poco al respecto). La solución puede formar un arco cuando no hay una segunda dimensión fuerte en los datos, de modo que una versión plegada del primer eje, que satisfaga el requisito de ortogonalidad de los ejes CA, explique más "inercia" que otra dirección en los datos. Esto puede ser más grave, ya que se compone de una estructura en la que con PCA el arco es solo una forma de representar la abundancia de especies en sitios a lo largo de un gradiente dominante único.

Nunca entendí por qué la gente se preocupa tanto por el pedido incorrecto a lo largo de PC1 con una herradura fuerte. Yo respondería que no debería tomar solo PC1 en tales casos, y luego el problema desaparece; los pares de coordenadas en PC1 y PC2 eliminan las reversiones en cualquiera de esos dos ejes.

Q3

Si vi la herradura en un biplot PCA, interpretaría que los datos tienen un solo gradiente dominante o dirección de variación.

Si vi el arco, probablemente concluiría lo mismo, pero sería muy cauteloso al tratar de explicar el eje 2 de CA en absoluto.

No aplicaría DCA: solo retuerce el arco (en las mejores circunstancias) de modo que no se vean rarezas en las parcelas 2-d, pero en muchos casos produce otras estructuras espurias, como diamantes o formas de trompeta. disposición de muestras en el espacio DCA. Por ejemplo:

library("vegan")
data(BCI)
plot(decorana(BCI), display = "sites", type = "p") ## does DCA

ingrese la descripción de la imagen aquí

Vemos un despliegue típico de puntos de muestra hacia la izquierda de la trama.

Q4

$m$

Esto sugeriría encontrar una dirección no lineal en el espacio de alta dimensión de los datos. Uno de estos métodos es la curva principal de Hastie y Stuezel, pero hay disponibles otros métodos no lineales que pueden ser suficientes.

Por ejemplo, para algunos datos patológicos.

ingrese la descripción de la imagen aquí

Vemos una herradura fuerte. La curva principal intenta recuperar este gradiente subyacente o disposición / ordenamiento de muestras a través de una curva suave en las dimensiones m de los datos. La siguiente figura muestra cómo el algoritmo iterativo converge en algo que se aproxima al gradiente subyacente. (Creo que se aleja de los datos en la parte superior de la gráfica para estar más cerca de los datos en dimensiones más altas, y en parte debido al criterio de autoconsistencia para que una curva sea declarada curva principal).

ingrese la descripción de la imagen aquí

Tengo más detalles, incluido el código en la publicación de mi blog, de donde tomé esas imágenes. Pero el punto principal aquí es que las curvas principales recuperan fácilmente el orden conocido de las muestras, mientras que PC1 o PC2 por sí solo no lo hacen.

En el caso de PCA, es común aplicar transformaciones en ecología. Las transformaciones populares son aquellas en las que se puede pensar que devuelve alguna distancia no euclidiana cuando la distancia euclidiana se calcula en los datos transformados. Por ejemplo, la distancia de Hellinger es

{re}_{H mi l l yo norte sol mi r} (X 1, X 2) = \sqrt{\sum_{j = 1}^{pags} {[\sqrt{\frac{y_{1 j}}{y_{1 +}}} - \sqrt{\frac{y_{2 j}}{y_{2 +}}}]}^{2}}

$D_{\mathrm{Hellinger}}(x1, x2) = \sqrt{\sum_{j=1}^p \left [ \sqrt{\frac{y_{1j}}{y_{1+}}} - \sqrt{\frac{y_{2j}}{y_{2+}}} \right ]^2}$

$y_{ij}$ $j$ $i$ $y_{i+}$ $i$

La herradura ha sido conocida y estudiada durante mucho tiempo en ecología; parte de la literatura temprana (más un aspecto más moderno) es

Goodall DW y col. (1954) Métodos objetivos para la clasificación de la vegetación. III. Un ensayo sobre el uso del análisis factorial . Australian Journal of Botany 2, 304–324.
Noy-Meir I. y Austin MP et al. (1970) Ordenación de componentes principales y datos vegetativos simulados . Ecología 51, 551–552.
Podani J. y Miklós I. et al. (2002) Coeficientes de semejanza y el efecto de herradura en el análisis de coordenadas principales . Ecología 83, 3331–3343.
Swan JMA y col. (1970) Un examen de algunos problemas de ordenación mediante el uso de datos vegetales simulados . Ecología 51, 89-102.

Las principales referencias de curvas principales son

De'ath G. y col. (1999) Curvas principales: una nueva técnica para el análisis de gradiente indirecto y directo . Ecología 80, 2237–2253.
Hastie T. y Stuetzle W. et al. (1989) Curvas principales . Revista de la Asociación Americana de Estadística 84, 502–516.

Siendo la primera una presentación muy ecológica.

Restablece a Mónica - G. Simpson
fuente

Gracias Gavin. Considere las clasificaciones ordinales 1: 5 de un conjunto de datos con preguntas como: "Me gusta mi médico" y "Siento que mi médico se preocupa por mí como persona". Estos no se distribuyen de manera significativa en el espacio o el tiempo. ¿Cuál sería el 'gradiente' aquí?

gung - Restablece a Monica

Con una tabla de 5x5 y alto N, una forma de visualizar los datos es con CA. Los datos son ordinales, pero CA no reconoce eso; para que podamos verificar si las filas / columnas adyacentes están más cerca que las que están más separadas. Ambos conjuntos de puntos caen a lo largo de una línea clara en el orden apropiado, pero la línea se curva de tal manera que los extremos están más cerca uno del otro que el punto medio en el espacio 2D. ¿Cómo se debe interpretar eso?

gung - Restablece a Monica

CA encuentra un orden tanto para las filas (muestras) como para las variables (cols) que maximiza la dispersión de los "puntajes" de la muestra. Encuentra una variable latente (una combinación lineal de las variables) que maximiza esa dispersión. Llamamos a esa variable latente un gradiente.

Restablece a Monica - G. Simpson el

Con respecto a la compresión, ¿quiere decir más cerca uno del otro en el eje CA 1 o más cerca uno del otro en términos de distancia euclidiana en la escala del biplot? De cualquier manera, esto es realmente un problema en la proyección de los datos en un espacio de baja dimensión. DCA intenta deshacer este efecto separando las muestras al final del eje 1 de DCA sin tendencia y comprimiendo las muestras cerca del origen. Entonces sí, es un problema, pero se debe a la inflexibilidad del método para capturar el gradiente subyacente de manera adecuada. Podemos vivir con él o utilizar un enfoque más flexible (al menos en ecología).

Restablece a Monica - G. Simpson el

Si miraras esto en más dimensiones, el problema desaparecería. Creo que esto es solo un límite del método; funciona bien en muchos casos pero falla en otros.

Restablece a Monica - G. Simpson el

¿Qué es el "efecto de herradura" y / o el "efecto de arco" en el análisis de correspondencia / PCA?

Respuestas:

Q1

Q2

Q3

Q4