¿Por qué la cantidad de variación explicada por mi primera PC es tan cercana a la correlación promedio por pares?

9

¿Cuál es la relación entre los primeros componentes principales y la correlación promedio en la matriz de correlación?

Por ejemplo, en una aplicación empírica, observo que la correlación promedio es casi la misma que la razón de la varianza del primer componente principal (primer valor propio) a la varianza total (suma de todos los valores propios).

¿Hay una relación matemática?

A continuación se muestra el cuadro de los resultados empíricos. Donde la correlación es la correlación promedio entre los retornos del componente de índice de acciones DAX calculados en una ventana variable de 15 días y la varianza explicada es la parte de la varianza explicada por el primer componente principal, también calculada en la ventana variable de 15 días.

¿Podría esto explicarse por un modelo de factor de riesgo común como CAPM?

ingrese la descripción de la imagen aquí

Estudiante
fuente
1
¿Qué supone que sucede cuando muchas de las correlaciones son negativas o cercanas a cero? Por ejemplo, generar algunos datos normales bivariados con correlación cero. ¿Por qué esperarías que haya alguna relación entre tu relación de varianza y esa correlación cero?
whuber

Respuestas:

6

Creo que la relación entre la correlación media y el valor propio de la primera PC existe pero no es única. No soy matemático para poder deducirlo, pero al menos puedo mostrar el punto de partida desde el cual podría surgir la intuición o el pensamiento.

Si dibuja variables estandarizadas como vectores en el espacio euclidiano que lo asienta (y este es el espacio reducido donde los ejes son observaciones), la correlación es el coseno entre dos vectores .

ingrese la descripción de la imagen aquí

Y debido a que los vectores son todos de longitud unitaria (debido a la estandarización), los cosenos son las proyecciones de los vectores entre sí (como se muestra en la imagen de la izquierda con tres variables). La primera PC es una línea en este espacio que maximiza la suma de las proyecciones cuadradas sobre ella, a , llamadas cargas; y esta suma es el primer valor propio.

Entonces, cuando establece la relación entre la media de las tres proyecciones de la izquierda con la suma (o media) de las tres proyecciones cuadradas de la derecha, responde a su pregunta sobre la relación entre la correlación media y el valor propio.

ttnphns
fuente
6

C

norte×norte

(1CCCC1CCCC1CCCC1).
(1,1,1,1)/ /norteλ1=1+(norte-1)Cλyo=norte
R2=1norte+norte-1norteCC.

norte

Espero que para matrices grandes, este resultado se mantenga aproximadamente incluso si las correlaciones no son exactamente idénticas.


nortenorte=(1-C)/ /(R2-C)C=0,5R2-C=0,02norte=2530

ameba
fuente