Condiciones suficientes y necesarias para el valor propio cero de una matriz de correlación

11

Dada variable aleatoria , con distribución de probabilidad , la matriz de correlación es positivo semi-definidas, es decir, sus valores propios son positivos o cero $n$ $X_i$ $P(X_1,\ldots,X_n)$ $C_{ij}=E[X_i X_j]-E[X_i]E[X_j]$

Estoy interesado en las condiciones en que son necesarias y / o suficientes para que tenga valores propios cero. Por ejemplo, una condición suficiente es que las variables aleatorias no son independientes: para algunos números reales . Por ejemplo, si , entonces es un vector propio de con valor propio cero. Si tenemos restricciones lineales independientes en las 's de este tipo, implicaría cero valores propios. $P$ $C$ $m$ $\sum_i u_i X_i=0$ $u_i$ $P(X_1,\ldots,X_n)=\delta(X_1-X_2)p(X_2,\ldots,X_n)$ $\vec u=(1,-1,0,\ldots,0)$ $C$ $m$ $X_i$ $m$

Hay al menos una posibilidad adicional (pero trivial), cuando para algún (es decir, ), ya que en ese el caso tiene una columna y una línea de ceros: . Como no es realmente interesante, supongo que la distribución de probabilidad no es de esa forma. $X_a=E[X_a]$ $a$ $P(X_1,\ldots,X_n)\propto\delta(X_a-E[X_a])$ $C_{ij}$ $C_{ia}=C_{ai}=0,\,\forall i$

Mi pregunta es: ¿son las restricciones lineales la única forma de inducir valores propios cero (si prohibimos la excepción trivial dada anteriormente), o las restricciones no lineales en las variables aleatorias también pueden generar valores propios cero de ? $C$

correlation Adán
fuente

1

Por definición, una colección de vectores que incluye el vector cero depende linealmente, por lo que su posibilidad adicional no es nada nuevo o diferente. Podría explicar qué quiere decir con "tener un valor propio"? Eso parece algún tipo de error tipográfico.

m

$m$

whuber

@whuber: sí, error tipográfico. Corregido Creo que las dos condiciones son diferentes: una trata sobre la relación entre las variables, mientras que la otra trata sobre la probabilidad de una sola variable (es decir, ).

p (X_{a}) = δ (X_{a} - E (X_{a}))

$p(X_a)=\delta(X_a-E(X_a))$

Adam

La formulación de su pregunta es confusa. Se ve como un teorema elemental de álgebra lineal, pero las referencias a variables aleatorias "independientes" sugieren que podría ser de otra cosa por completo. ¿Sería correcto entender que cada vez que usa "independiente" quiere decir en el sentido de independencia lineal y no en el sentido de variables aleatorias (estadísticamente) independientes? Su referencia a los "datos faltantes" es aún más confusa, porque sugiere que sus "variables aleatorias" realmente podrían significar solo columnas de una matriz de datos. Sería bueno ver estos significados aclarados.

whuber

@whuber: he editado la pregunta. Ojalá sea más claro.

Adam

La condición para la independencia no necesariamente debe ser cero (cualquier constante lo hará), a menos que la media de cada sea cero.

\sum_{i} u_{i} X_{i} = 0

$\sum_i u_i X_i=0$

X_{i}

$X_i$

Sextus Empiricus

6

Quizás simplificando la notación podemos sacar las ideas esenciales. Resulta que no necesitamos involucrar expectativas o fórmulas complicadas, porque todo es puramente algebraico.

La naturaleza algebraica de los objetos matemáticos.

La pregunta se refiere a las relaciones entre (1) la matriz de covarianza de un conjunto finito de variables aleatorias (2) relaciones lineales entre esas variables, consideradas como vectores . $X_1, \ldots, X_n$

El espacio vectorial en cuestión es el conjunto de todas las variables aleatorias de varianza finita (en cualquier espacio de probabilidad dado ) módulo del subespacio de variables constantes casi seguramente, denotado (Es decir, consideramos que dos variables aleatorias e son el mismo vector cuando hay cero posibilidades de que difiera de sus expectativas). Estamos tratando solo con el espacio vectorial finito dimensional generado por que es lo que hace de este un problema algebraico en lugar de analítico. $(\Omega,\mathbb P)$ $\mathcal{L}^2(\Omega,\mathbb P)/\mathbb R.$ $X$ $Y$ $X-Y$ $V$ $X_i,$

Lo que necesitamos saber sobre las variaciones

$V$ es más que un simple espacio vectorial: es un módulo cuadrático, porque viene equipado con la varianza. Todo lo que necesitamos saber sobre las variaciones son dos cosas:

La varianza es una función escalar de valor con la propiedad de que para todos los vectores $Q$ $Q(aX)=a^2Q(X)$ $X.$
La varianza no es degenerada.

El segundo necesita alguna explicación. determina un "producto puntual", que es una forma bilineal simétrica dada por $Q$

X \cdot Y = \frac{1}{4} (Q (X + Y) - Q (X - Y)) .

$X\cdot Y = \frac{1}{4}\left(Q(X+Y) - Q(X-Y)\right).$

(Por supuesto, esto no es otra cosa que la covarianza de las variables e ) vectores e son ortogonales cuando su producto de punto es El complemento ortogonal de cualquier conjunto de vectores consiste en todos los vectores ortogonales a cada elemento de escrito $X$ $Y.$ $X$ $Y$ $0.$ $\mathcal A \subset V$ $\mathcal A,$

A^{0} = {v \in V ∣ a . v = 0 for all v \in V} .

$\mathcal{A}^0 = \{v\in V\mid a . v = 0\text{ for all }v \in V\}.$

Es claramente un espacio vectorial. Cuando , no es degenerado. $V^0 = \{0\}$ $Q$

Permítanme demostrar que la variación no es degenerada, aunque parezca obvia. Supongamos que es un elemento distinto de cero de Esto significa para todo equivalentemente $X$ $V^0.$ $X\cdot Y = 0$ $Y\in V;$

Q (X + Y) = Q (X - Y)

$Q(X+Y) = Q(X-Y)$

para todos los vectores Tomar da $Y.$ $Y=X$

4 4 Q (X) = Q (2 X) = Q (X + X) = Q (X - X) = Q (0 0) = 0 0

$4 Q(X) = Q(2X) = Q(X+X) = Q(X-X) = Q(0) = 0$

y por lo tanto Sin embargo, sabemos (usando la desigualdad de Chebyshev, tal vez) que las únicas variables aleatorias con varianza cero son casi seguramente constantes, lo que las identifica con el vector cero en QED. $Q(X)=0.$ $V,$

Interpretando las preguntas

Volviendo a las preguntas, en la notación anterior la matriz de covarianza de las variables aleatorias es solo una matriz regular de todos sus productos de punto,

T = (X_{i} \cdot X_{j}) .

$T = (X_i\cdot X_j).$

Hay una buena manera de pensar en : define una transformación lineal en de la forma habitual, enviando cualquier vector en el vector cuyo componente está dada por la regla de la multiplicación de la matriz $T$ $\mathbb{R}^n$ $x=(x_1, \ldots, x_n)\in\mathbb{R}^n$ $T(x)=y=(y_1, \ldots, x_n)$ $i^\text{th}$

y_{i} = \sum_{j = 1}^{n} (X_{i} \cdot X_{j}) x_{j} .

$y_i = \sum_{j=1}^n (X_i\cdot X_j)x_j.$

El núcleo de esta transformación lineal es el subespacio que envía a cero:

Ker (T) = {x \in R^{n} ∣ T (x) = 0} .

$\operatorname{Ker}(T) = \{x\in \mathbb{R}^n\mid T(x)=0\}.$

La ecuación anterior implica que cuando para cada $x\in \operatorname{Ker}(T),$ $i$

0 = y_{i} = \sum_{j = 1}^{n} (X_{i} \cdot X_{j}) x_{j} = X_{i} \cdot (\sum_{j} x_{j} X_{j}) .

$0 = y_i = \sum_{j=1}^n (X_i\cdot X_j)x_j = X_i \cdot \left(\sum_j x_j X_j\right).$

Como esto es cierto para cada se cumple para todos los vectores abarcados por : a saber, sí. En consecuencia, cuando el vector dado por encuentra en Debido a que la varianza es no degenerada, esto significa Esto es, describe una dependencia lineal entre los originales variables aleatorias. $i,$ $X_i$ $V$ $x\in\operatorname{Ker}(T),$ $\sum_j x_j X_j$ $V^0.$ $\sum_j x_j X_j = 0.$ $x$ $n$

Puede comprobar fácilmente que esta cadena de razonamiento es reversible:

Dependencias lineales entre la como vectores están en correspondencia uno-a-uno con los elementos del núcleo de $X_j$ $T.$

(Recuerde, esta declaración todavía considera que define como un cambio constante en la ubicación, es decir, como elementos de lugar de solo como variables aleatorias). $X_j$ $\mathcal{L}^2(\Omega,\mathbb P)/\mathbb R$

Finalmente, por definición, un valor propio de es cualquier escalar para el que existe un vector distinto de cero con Cuando es un valor propio, el espacio de vectores propios asociados es (obviamente) el núcleo de $T$ $\lambda$ $x$ $T(x) = \lambda x.$ $\lambda=0$ $T.$

Resumen

Hemos llegado a la respuesta a las preguntas: el conjunto de dependencias lineales de las variables aleatorias, qua elementos de corresponde uno a uno con el kernel de su covarianza matriz Esto es así porque la varianza es una forma cuadrática no degenerada. El núcleo también es el espacio propio asociado con el valor propio cero (o simplemente el subespacio cero cuando no hay valor propio cero). $\mathcal{L}^2(\Omega,\mathbb P)/\mathbb R,$ $T.$

Referencia

He adoptado en gran medida la notación y parte del lenguaje del Capítulo IV en

Jean-Pierre Serre, Un curso de aritmética. Springer-Verlag 1973.

whuber
fuente

Whoa, eso es genial! Solo una pregunta para asegurarme de que entiendo todo: cuando escribes "

como vectores" no te refieres a recopilar las variables aleatorias en un vector (es decir,

), o no ? Si estoy en lo cierto, supongo que está recopilando los posibles valores de la variable aleatoria

en un vector, mientras que la distribución de probabilidad está oculta en la definición de la varianza, ¿verdad?

X_{j}

$X_j$

\vec{X} = (X_{1}, \dots, X_{n})

$\vec X=(X_1,\ldots,X_n)$

X_{i}

$X_i$

Adam

Creo que el aspecto principal que no está del todo claro es el siguiente (que podría mostrar mi falta de conocimiento formal de la teoría de la probabilidad): parece mostrar que si hay un valor propio 0, entonces tenemos, por ejemplo,

. Esta restricción no se refiere a la distribución de probabilidad

, que está oculta en

(creo que este es el punto inteligente de esta demostración). Pero, ¿qué significa tener

sin referencia a

? ¿O simplemente implica que

X_{1} = X_{2}

$X_1=X_2$

P

$P$

Q

$Q$

X_{1} = X_{2}

$X_1=X_2$

P

$P$

P \propto δ (X_{1} - X_{2})

$P\propto \delta(X_1-X_2)$ , pero entonces, ¿cómo sabemos que debe ser una combinación lineal de y en la función delta $X_1$ $X_2$ ?

Adam

Me temo que no entiendo tu uso de una "función delta" en este contexto, Adam. Esto se debe en parte a que no lo necesito y en parte porque la notación es ambigua: ¿sería un delta de Kronecker o un delta de Dirac, por ejemplo?

whuber

Sería un Kronecker o un Dirac dependiendo de las variables (discretas o continuas). Estos delta podrían ser parte de la medida de integración, por ejemplo, yo integro más de 2 por 2 matrices

(entonces cuatro variables reales

,

y

, con algo de peso (digamos

), o la integración de más de un sub-grupo. Si se trata de matrices simétricas (lo que implica, por ejemplo,

M

$M$

X_{1}

$X_1$

X_{2}

$X_2$

X_{3}

$X_3$

X_{4}

$X_4$

P = \exp (- t r (M . M^{T}))

$P=\exp(-tr(M.M^T))$

X_{2} = X_{3}

$X_2=X_3$ ), Puedo imponerlo formalmente multiplicando

por

. Esto sería una restricción lineal. Un ejemplo de restricción no lineal se da en los comentarios debajo de la respuesta de Martijn Weterings.

P

$P$

δ (X_{1} - X_{2})

$\delta(X_1-X_2)$

Adam

(continuación) La pregunta es: ¿qué lata de restricciones no lineales que puedo agregar a mis variables puede inducir un valor propio 0? Según sus respuestas, parece ser: solo una restricción no lineal que implica una restricción lineal (como se ejemplifica en los comentarios debajo de la respuesta de Martijn Weterings). Quizás el problema es que mi forma de pensar sobre el problema es desde el punto de vista físico, y lucho por explicarlo en un idioma diferente (creo que este es el lugar correcto para hacer esta pregunta, no física. SE).

Adam

5

La independencia lineal no solo es suficiente, sino también una condición necesaria

Para mostrar que la matriz de varianza-covarianza tiene valores propios iguales a cero si y solo si las variables no son linealmente independientes, solo queda por demostrar que "si la matriz tiene valores propios iguales a cero, entonces las variables no son linealmente independientes".

Si tiene un valor propio cero para entonces hay alguna combinación lineal (definida por el vector propio ) $C_{ij} = \text{Cov}(X_i,X_j)$ $v$

Y = \sum_{i = 1}^{n} v_{i} (X_{i})

$Y = \sum_{i=1}^n v_i (X_i)$

tal que

\begin{array}{rcl} Cov (Y, Y) & = & \sum_{i = 1}^{n} \sum_{j = 1}^{n} v_{i} v_{j} Cov (X_{i}, X_{j}) \\ = & \sum_{i = 1}^{n} v_{i} \sum_{j = 1}^{n} v_{j} C_{i j} \\ = & \sum_{i = 1}^{n} v_{i} \cdot 0 \\ = & 0 \end{array}

$\begin{array}{rcl} \text{Cov}(Y,Y) &=& \sum_{i=1}^n \sum_{j=1}^n v_i v_j \text{Cov}(X_i,X_j) \\ &=&\sum_{i=1}^n v_i\sum_{j=1}^n v_j C_{ij} \\ &= &\sum_{i=1}^n v_i \cdot 0 \\ &=& 0 \end{array}$

lo que significa que tiene que ser una constante y por lo tanto las variables tengo para añadir hasta una constante y son o bien constantes de sí mismos (el caso trivial) o no linealmente independientes. $Y$ $X_i$

^{- la primera línea en la ecuación con se debe a la propiedad de covarianza $\text{Cov}(Y,Y)$}

Cov (a U + b V, c W + d X) = a c Cov (U, W) + b c Cov (V, W) + a d Cov (U, X) + b d Cov (V, X)

$\scriptsize\text{Cov}(aU+bV,cW+dX) = ac\,\text{Cov}(U,W) + bc\,\text{Cov}(V,W) +ad\, \text{Cov}(U,X) + bd \,\text{Cov}(V,X)$

^{- el paso de la segunda a la tercera línea se debe a la propiedad de un valor propio cero}

\sum_{j = 1}^{n} v_{j} C_{i j} = 0

$\scriptsize \sum_{j=1}^nv_jC_{ij} = 0$

Restricciones no lineales

Entonces, dado que las restricciones lineales son una condición necesaria (no solo suficiente), las restricciones no lineales solo serán relevantes cuando indirectamente implican una restricción lineal (necesaria).

De hecho, existe una correspondencia directa entre los vectores propios asociados con el valor propio cero y las restricciones lineales.

C \cdot v = 0 ⟺ Y = \sum_{i = 1}^{n} v_{i} X_{i} = const

$C \cdot v = 0 \iff Y = \sum_{i=1}^n v_i X_i = \text{const}$

Por lo tanto, las restricciones no lineales que conducen a un valor propio cero deben, juntas combinadas, generar alguna restricción lineal.

¿Cómo pueden las restricciones no lineales conducir a restricciones lineales?

Su ejemplo en los comentarios puede mostrar intuitivamente cómo las restricciones no lineales pueden conducir a restricciones lineales al invertir la derivación. Las siguientes restricciones no lineales

\begin{array}{lcr} a^{2} + b^{2} & = & 1 \\ c^{2} + d^{2} & = & 1 \\ a c + b d & = & 0 \\ a d - b c & = & 1 \end{array}

$\begin{array}{lcr} a^2+b^2&=&1\\ c^2+d^2&=&1\\ ac + bd &=& 0 \\ ad - bc &=& 1 \end{array}$

puede reducirse a

\begin{array}{lcr} a^{2} + b^{2} & = & 1 \\ c^{2} + d^{2} & = & 1 \\ a - d & = & 0 \\ b + c & = & 0 \end{array}

$\begin{array}{lcr} a^2+b^2&=&1\\ c^2+d^2&=&1\\ a-d&=&0 \\ b+c &=& 0 \end{array}$

Podrías invertir esto. Supongamos que tiene restricciones no lineales más lineales, entonces no es extraño imaginar cómo podemos reemplazar una de las restricciones lineales con una restricción no lineal, completando las restricciones lineales en las restricciones no lineales. Por ejemplo, cuando sustituimos y en la forma no lineal entonces puede establecer otra relación . Y cuando multiplicas y $a=d$ $b=-c$ $a^2+b^2=1$ $ad-bc=1$ $a=d$ entonces obtienes . $c=-b$ $ac=-bd$

Sexto empírico
fuente

Supongo que esto (y la respuesta de Whuber) es una respuesta indirecta a mi pregunta (que era: "la dependencia lineal es la única forma de obtener un valor propio cero") de esta manera: incluso si la dependencia entre las variables aleatorias no es lineal, siempre se puede reescribir como una dependencia lineal simplemente escribiendo

. Aunque realmente estaba buscando la manera de caracterizar las posibles restricciones no lineales, supongo que es un resultado útil.

Y = \sum_{i} ν_{i} X_{i}

$Y=\sum_i \nu_i X_i$

Adam

Sí, lo sé ... lo que digo es que si hay una dependencia no lineal y hay un valor propio cero, entonces, por su respuesta, significa que la dependencia no lineal puede ser "factorizada" de alguna manera en una dependencia lineal. Es una versión más débil de lo que estaba buscando, pero sigue siendo algo.

Adam

Estás dando un ejemplo que no funciona, lo que no significa que no pueda ser el caso ...

Adam

M

$M$

M . M^{T} = 1

$M.M^T=1$

det M = 1

$\det M=1$

det M = 1

$\det M=1$

M_{11} = X_{1}

$M_{11}=X_1$

M_{12} = X_{2}

$M_{12}=X_2$

M_{21} = X_{3}

$M_{21}=X_3$

M_{22} = X_{4}

$M_{22}=X_4$

X_{1}^{2} + X_{2}^{2} = 1

$X_1^2+X_2^2=1$

X_{3}^{2} + X_{4}^{2} = 1

$X_3^2+X_4^2=1$

X_{1} X_{3} + X_{2} X_{4} = 0

$X_1 X_3+X_2 X_4=0$

X_{1} X_{4} - X_{2} X_{3} = 1

$X_1 X_4-X_2 X_3=1$

2

$C$ $v$ $0$ $\operatorname{var}(v^T X) = v^T Cv = 0$ $v^TX$ $v^T E [X]$ $v^T X = v^T E[X]$ . No hay necesidad de considerar ningún caso especial.

Por lo tanto, concluimos:

"¿son las restricciones lineales la única forma de inducir cero valores propios [?]"

Si.

"¿pueden las restricciones no lineales sobre las variables aleatorias generar también valores propios cero de C?"

Sí, si implican restricciones lineales.

ekvall
fuente

Estoy de acuerdo. Esperaba que uno pudiera ser más específico sobre el tipo de restricciones no lineales, pero supongo que es difícil hacerlo mejor si no especificamos las restricciones.

Adam

2

$C$ $X$ $C=Q\Lambda Q^T$ $\Lambda.$ $\Lambda=Q^TCQ$ $Q^TX$ $X$

Hasse1987
fuente

Q^{T} C Q = cov (Q^{T} X)

$Q^TCQ = \text{cov}(Q^TX)$

Condiciones suficientes y necesarias para el valor propio cero de una matriz de correlación

Respuestas:

La naturaleza algebraica de los objetos matemáticos.

Lo que necesitamos saber sobre las variaciones

Interpretando las preguntas

Resumen

Referencia

La independencia lineal no solo es suficiente, sino también una condición necesaria

Restricciones no lineales

¿Cómo pueden las restricciones no lineales conducir a restricciones lineales?