Estoy hablando aquí de matrices de correlaciones de Pearson.
A menudo escuché decir que todas las matrices de correlación deben ser semidefinidas positivas. Tengo entendido que las matrices definidas positivas deben tener valores propios , mientras que las matrices semidefinidas positivas deben tener valores propios . Esto me hace pensar que mi pregunta puede reformularse como "¿Es posible que las matrices de correlación tengan un valor propio ?"≥ 0 = 0
¿Es posible que una matriz de correlación (generada a partir de datos empíricos, sin datos faltantes) tenga un valor propio , o un valor propio ? ¿Qué pasaría si se tratara de una matriz de correlación de población?< 0
Leí en la respuesta superior a esta pregunta sobre las matrices de covarianza que
Considere tres variables, , y . Su matriz de covarianza, , no es positiva definida, ya que hay un vector ( ) para el cual no es positivo.Y Z = X + Y M z = ( 1 , 1 , - 1 ) ′
Sin embargo, si en lugar de una matriz de covarianza hago esos cálculos en una matriz de correlación, entonces resulta positivo. Por lo tanto, creo que tal vez la situación es diferente para las matrices de correlación y covarianza.
Mi razón para preguntar es que me preguntaron en stackoverflow , en relación con una pregunta que hice allí.
fuente
Respuestas:
Las matrices de correlación no necesitan ser definitivas positivas.
Considere una variable aleatoria escalar X que tiene una varianza no nula. Entonces, la matriz de correlación de X consigo misma es la matriz de todos, que es positiva semi-definida, pero no positiva definida.
En cuanto a la correlación de la muestra, considere los datos de la muestra para lo anterior, teniendo la primera observación 1 y 1, y la segunda observación 2 y 2. Esto da como resultado que la correlación de la muestra sea la matriz de todos, por lo que no es definitivo positivo.
Una matriz de correlación de muestra, si se calcula en aritmética exacta (es decir, sin error de redondeo) no puede tener valores propios negativos.
fuente
Las respuestas de @yoki y @MarkLStone (+1 a ambas) señalan que una matriz de correlación de población puede tener valores propios cero si las variables están relacionadas linealmente (por ejemplo, en el ejemplo de @MarkLStone y en el ejemplo de @yoki).X1=X2 X1=2X2
Además de eso, una matriz de correlación de muestra necesariamente tendrá valores propios cero si , es decir, si el tamaño de la muestra es menor que el número de variables. En este caso, las matrices de covarianza y correlación serán a lo sumo del rango , por lo que habrá al menos valores propios cero. Consulte ¿Por qué una matriz de covarianza muestral es singular cuando el tamaño de la muestra es menor que el número de variables? y ¿Por qué el rango de matriz de covarianza es como máximo ?n<p n−1 p−n+1 n−1
fuente
Considere que es un rv con media 0 y varianza de 1. Sea , y calcule la matriz de covarianza de . Como , , y . Debido a la configuración media cero, los segundos momentos son iguales a las covarianzas adecuadas, por ejemplo: .X Y=2X (X,Y) 2X=Y E[Y2]=4E[X2]=σ2Y E[XY]=2E[X2] Cov(X,Y)=E[XY]−EXEY=E[XY]
Entonces la matriz de covarianza será: con un valor propio cero. La matriz de correlación será: tiene un valor propio cero. Debido a la correspondencia lineal entre e , es fácil ver por qué obtenemos esta matriz de correlación: la diagonal siempre será 1 y la diagonal fuera de 1 es debido a la relación lineal.
fuente
2
in es el esta última igualdad resultante de: .