Análisis de correlación canónica con correlación de rango

15

El análisis de correlación canónica (CCA) tiene como objetivo maximizar la correlación habitual del momento del producto de Pearson (es decir, el coeficiente de correlación lineal) de las combinaciones lineales de los dos conjuntos de datos.

Ahora, considere el hecho de que este coeficiente de correlación solo mide asociaciones lineales; esta es la razón por la cual también usamos, por ejemplo, coeficientes de correlación de Spearman- o Kendall- τ (rango) que miden conexiones monótonas arbitrarias (no necesariamente lineales) entre variablesρτ

Por lo tanto, estaba pensando en lo siguiente: una limitación de CCA es que solo trata de capturar la asociación lineal entre las combinaciones lineales formadas debido a su función objetivo. ¿No sería posible extender CCA en algún sentido maximizando, por ejemplo, Spearman- lugar de Pearson- rρr ?

¿Conduciría tal procedimiento a algo estadísticamente interpretable y significativo? (¿Tiene sentido, por ejemplo, realizar CCA en rangos ...?) Me pregunto si ayudaría cuando se trata de datos no normales ...

Tamas Ferenci
fuente
44
¿Será de su agrado OVERALS (análisis canónico lineal que escala de manera óptima (transforma monotónicamente) las variables para maximizar las correlaciones canónicas)?
ttnphns
@ttnphns: Gracias por la idea, no he oído hablar de ella antes, ¡y se ve realmente interesante! Sin embargo, no creo que aborde el punto: por lo que entiendo, es esencialmente una combinación de escala óptima y CCA, pero la escala óptima tiene sentido solo para variables categóricas. No parece cambiar mucho para las variables continuas medidas en la escala de relación (¡lo que tengo en mente!). Pero corrígeme si me equivoco.
Tamas Ferenci
1
@ttnphns: Bueno, ¡de la misma manera que a veces usas la correlación de Spearman en variables continuas! (Por supuesto, maneja los datos como ordinales ... pero nunca los usamos en variables definitivamente continuas para caracterizar la asociación monótona general (y no solo lineal) entre las variables). Es por eso que pensé que esto también tendría sentido dentro de CCA ...
Tamas Ferenci
@Glen_b, tienes razón. Por supuesto, las correlaciones de rango son para cualquier monotonicidad, ya sea datos ordinales o continuos. Estoy tan sorprendido de mi propio comentario anterior que lo estoy borrando.
ttnphns
Podría intentar usar Kernel CCA que específicamente cuando se usa con funciones de base radial nos permite proyectar los datos en un subespacio de dimensiones infinitas.
roni

Respuestas:

6

Utilicé expansiones de spline cúbicas restringidas al calcular variables canónicas. Está agregando funciones básicas no lineales al análisis exactamente como agregaría nuevas características. Esto da como resultado un análisis no lineal de componentes principales. Ver la RHmisc paquete 's transcanfunción para un ejemplo. El homalspaquete R lleva esto mucho más lejos.

Frank Harrell
fuente
1
¡Gracias! El enfoque descrito en los homals fue nuevo para mí, pero definitivamente interesante.
Tamas Ferenci
4

El método estándar de CCA funciona con la matriz de coeficientes de correlación de momento del producto. Para la mayor magnitud de CC, construye dos variables compuestas z1 (n) y z2 (n) mediante la combinación lineal de dos matices (con n filas y variables m1 y m2) de modo que se maximice abs (correlación (z1, z2)). Esta función objetivo se puede maximizar directamente incluso si la correlación (z1, z2) no es el momento del producto, sino que se define de manera diferente.

Mishra, SK (2009) "Una nota sobre el análisis de correlación canónica ordinal de dos conjuntos de puntajes de clasificación"

http://papers.ssrn.com/sol3/papers.cfm?abstract_id=1328319

SK Mishra
fuente