¿Cómo encontrar la varianza entre puntos multidimensionales?

12

Supongamos que tengo una matriz X que es n por p, es decir, tiene n observaciones, con cada observación en el espacio p-dimensional.

¿Cómo encuentro la varianza de estas n observaciones?

En el caso donde p = 1, solo necesito usar la fórmula de varianza regular. ¿Qué pasa con los casos donde p> 1?

statnub
fuente

Respuestas:

18

Para una variable aleatoria -dimensional , tenemos la siguiente definición de la varianza:pX=(X1,,Xp)

Var(X)=E[(XEX)(XEX)]=(Var(X1)Cov(X1,Xp)Cov(Xp,X1)Var(Xp))

Es decir, la varianza de un vector aleatorio se define como la matriz que almacena todas las varianzas en la diagonal principal y las covarianzas entre los diferentes componentes en los otros elementos. La matriz de covarianza la muestra se calcularía luego conectando los análogos de muestra para las variables de población:p×p

1n1(i=1n(Xi1X¯1)2i=1n(Xi1X¯1)(XipX¯p)i=1n(XipX¯p)(Xi1X¯1)i=1n(XipX¯p)2)
donde denota la ésima observación para la característica y la media muestral deXijijX¯jjth característica. En resumen, la varianza de un vector aleatorio se define como la matriz que contiene las varianzas y covarianzas individuales. Por lo tanto, es suficiente calcular las varianzas y covarianzas de muestra para todos los componentes del vector individualmente.
Philipp Burckhardt
fuente