¿Por qué una matriz de covarianza muestral es singular cuando el tamaño de la muestra es menor que el número de variables?

30

Digamos que tengo una distribución gaussiana multivariada -dimensional. Y tomo observaciones (cada uno de ellos un -vector) de esta distribución y calcular la matriz de covarianza de la muestra . En este artículo , los autores afirman que la matriz de covarianza muestral calculada con es singular.n p S p > npnpSp>n

  • ¿Cómo es cierto o derivado?
  • ¿Alguna explicación?
usuario34790
fuente
44
Tenga en cuenta que esto es cierto independientemente de la distribución subyacente: no necesita ser gaussiano.
ameba dice Reinstate Monica

Respuestas:

22

Algunos datos sobre los rangos matriciales, ofrecidos sin pruebas (pero las pruebas de todos o casi todos ellos deben presentarse en textos estándar de álgebra lineal o, en algunos casos, establecerse como ejercicios después de proporcionar suficiente información para poder hacerlo):

Si A y B son dos matrices conformables, entonces:

(i) rango de columna de A = rango de fila de A

(ii) rank(A)=rank(AT)=rank(ATA)=rank(AAT)

(iii) rank(AB)min(rank(A),rank(B))

(iv) rank(A+B)rank(A)+rank(B)

(v) si es una matriz cuadrada de rango completo, entonces rango ( A B ) = rango ( A )Brank(AB)=rank(A)

Considere la matriz de datos de muestra, y . De lo anterior, el rango de y es como máximo min ( n , p ) .n×pyymin(n,p)

Además, a partir de lo anterior, claramente el rango de no será mayor que el rango de y (considerando el cálculo de S en forma de matriz, con tal vez alguna simplificación).SyS

Si entonces rango ( y ) < p en cuyo caso rango ( S ) < p .n<prank(y)<prank(S)<p

Glen_b -Reinstate a Monica
fuente
¡buena respuesta! Sin embargo, no está completamente claro cómo y y S se relacionan con A y B.
Matifou
S se calcula a partir de y; ("x" en la publicación original). Puede utilizar los datos sobre yy las manipulaciones realizadas en él (a través de las reglas anteriores) para obtener un límite en el rango de S. Los roles que desempeñan A y B cambian de un paso a otro.
Glen_b -Reinstala Monica el
14

La respuesta corta a su pregunta es ese rango . Entonces, si p > n , entonces S es singular.(S)n1p>nS

Para obtener una respuesta más detallada, recuerde que la matriz de covarianza de la muestra (imparcial) se puede escribir como

S=1n1i=1n(xix¯)(xix¯)T.

Efectivamente, estamos sumando matrices, cada una con un rango de 1. Suponiendo que las observaciones son linealmente independientes, en algún sentido cada observación x i contribuye con 1 al rango ( S ) , y un 1 se resta del rango (si p > n ) porque centramos cada observación por ˉ x . Sin embargo, si la multicolinealidad está presente en las observaciones, entonces el rango ( S ) puede reducirse, lo que explica por qué el rango podría ser menor que n - 1 .nxi(S)p>nx¯(S)n1

Se ha dedicado una gran cantidad de trabajo al estudio de este problema. Por ejemplo, un colega mío y yo escribimos un artículo sobre este mismo tema, en el que estábamos interesados ​​en determinar cómo proceder si es singular cuando se aplica al análisis discriminante lineal en la configuración p n .Spn

ramhiser
fuente
44
¿Podría explicarnos por qué restar 1 porque cada observación por ˉ xx¯ ?
aguacate
@loganecolss: Consulte ¿Por qué el rango de matriz de covarianza es a lo sumo ? n1para una respuesta a tu pregunta.
ameba dice Reinstate Monica
¡Buena respuesta! ¿Tal vez podría agregar una explicación / enlace para el hecho de que la declaración que estamos sumando 𝑛 matrices, cada una con un rango de 1 ? ¡Gracias!
Matifou
10

Cuando observa la situación de la manera correcta, la conclusión es intuitivamente obvia e inmediata.

Este post ofrece dos demostraciones. El primero, inmediatamente debajo, está en palabras. Es equivalente a un dibujo simple, que aparece al final. En el medio hay una explicación de lo que significan las palabras y el dibujo.


La matriz de covarianza para las observaciones de p -variable es una matriz p × p calculada multiplicando a la izquierda una matriz X n p (los datos registrados) por su transposición X ' p n . Este producto de matrices envía vectores a través de una tubería de espacios vectoriales en los que las dimensiones son p y n . En consecuencia, la matriz de covarianza, qua transformación lineal, enviará R n a un subespacio cuya dimensión es como máximo min ( p , n ) .n pp×pXnpXpnpnRnmin(p,n)Es inmediato que el rango de la matriz de covarianza no sea mayor que . min(p,n) En consecuencia, si entonces el rango es a lo sumo n , que, siendo estrictamente menor que p, significa que la matriz de covarianza es singular.p>nnp

Toda esta terminología se explica completamente en el resto de esta publicación.

(Como Amoeba señaló amablemente en un comentario ahora eliminado, y muestra en una respuesta a una pregunta relacionada , la imagen de realidad se encuentra en un subespacio codimension-one de R n (que consta de vectores cuyos componentes suman cero) porque todas las columnas se han vuelto a centrar en cero. Por lo tanto, el rango de la matriz de covarianza de muestra 1XRnno puede excedern-1.)1n1XXn1


El álgebra lineal tiene que ver con el seguimiento de las dimensiones de los espacios vectoriales. Solo necesita apreciar algunos conceptos fundamentales para tener una intuición profunda para las afirmaciones sobre rango y singularidad:

  1. La multiplicación de matrices representa transformaciones lineales de vectores. Una matriz M representa una transformación lineal de un espacio n -dimensional V n a un espacio m -dimensional V m . Específicamente, envía cualquier x V n a M x = y V m . Que se trata de una transformación lineal se deduce inmediatamente de la definición de transformación lineal y propiedades aritméticas básicas de la multiplicación de matrices.m×nMnVnmVmxVnMx=yVm

  2. Las transformaciones lineales nunca pueden aumentar las dimensiones. Esto significa que la imagen de todo el espacio vectorial bajo la transformación M (que es un espacio sub-vector de V m ) puede tener una dimensión no mayor que n . Este es un teorema (fácil) que se deriva de la definición de dimensión.VnMVmn

  3. La dimensión de cualquier espacio sub-vector no puede exceder la del espacio en el que se encuentra. Este es un teorema, pero nuevamente es obvio y fácil de probar.

  4. El rango de una transformación lineal es la dimensión de su imagen. El rango de una matriz es el rango de la transformación lineal que representa. Estas son definiciones.

  5. Una matriz singular tiene un rango estrictamente menor que nMmnn (la dimensión de su dominio). En otras palabras, su imagen tiene una dimensión más pequeña. Esta es una definición.

Para desarrollar la intuición, es útil ver las dimensiones. Por lo tanto, escribiré las dimensiones de todos los vectores y matrices inmediatamente después de ellos, como en y x n . Así, la fórmula genéricaMmnxn

ym=Mmnxn

is intended to mean that the m×n matrix M, when applied to the n-vector x, produces an m-vector y.

Products of matrices can be thought of as a "pipeline" of linear transformations. Generically, suppose ya is an a-dimensional vector resulting from the successive applications of the linear transformations Mmn,Llm,,Bbc, and Aab to the n-vector xn coming from the space Vn. This takes the vector xn successively through a set of vector spaces of dimensions m,l,,c,b, and finally a.

Look for the bottleneck: because dimensions cannot increase (point 2) and subspaces cannot have dimensions larger than the spaces in which they lie (point 3), it follows that the dimension of the image of Vn cannot exceed the smallest dimension min(a,b,c,,l,m,n) encountered in the pipeline.


This diagram of the pipeline, then, fully proves the result when it is applied to the product XX:

![enter image description here

whuber
fuente