Si los datos son 1d, la varianza muestra hasta qué punto los puntos de datos son diferentes entre sí. Si los datos son multidimensionales, obtendremos una matriz de covarianza.
¿Existe una medida que proporcione un número único de cómo los puntos de datos son diferentes entre sí en general para los datos multidimensionales?
Siento que puede haber muchas soluciones ya, pero no estoy seguro del término correcto para buscarlas.
Tal vez pueda hacer algo como sumar los valores propios de la matriz de covarianza, ¿suena sensato?
variance
covariance
covariance-matrix
dontloo
fuente
fuente
adding up the eigenvalues of the covariance matrix
es igual a la traza ameba mencionada anteriormente.Respuestas:
(La respuesta a continuación simplemente presenta y establece el teorema probado en [0]. La belleza de ese artículo es que la mayoría de los argumentos se formulan en términos de álgebra lineal básica. Para responder a esta pregunta será suficiente establecer los resultados principales, pero por supuesto, ve a ver la fuente original).
En cualquier situación en la que el patrón multivariado de los datos pueda describirse mediante una distribución elíptica variablek , la inferencia estadística, por definición, reducirá el problema de ajustar (y caracterizar) un vector de ubicación variable k (digamos θ ) y a k por k matriz simétrica semi positiva positiva simétrica (digamos Σ ) a los datos. Por las razones que explico a continuación (pero que ya asume como premisas), a menudo será más significativo descomponer Σ en un componente de forma (una matriz SPSD del mismo tamaño que Σ ) que representa la forma de los contornos de densidad de su distribución multivariada y un escalar σS expresando la escala de estos contornos.
En datos univariados (k=1 ), Σ , la matriz de covarianza de sus datos es un escalar y, como se verá en la discusión a continuación, el componente de forma de Σ es 1, de modo que Σ es igual a su componente de escala Σ=σS siempre y No es posible la ambigüedad.
En datos multivariados, son posibles muchas opciones de escaladoσS Uno en particular ( σS= | ΣΣEl |1 / k ) se destaca por tener una propiedad clave deseable. Esto debería convertirlo en la opción preferida de factor de escala en el contexto de familias elípticas.
Muchos problemas en las estadísticas de MV implican la estimación de una matriz de dispersión, definida como una función (al)Σ simétrica semi positiva definida en y satisfactoria:Rk × k
(para matrices no singulares
En presencia de datos distribuidos elípticos, donde todos los contornos de densidad son elipses definidos por la misma matriz de formas, hasta la multiplicación por un escalar, es natural considerar versiones normalizadas de de la forma:Σ
donde es una función 1-honrosa satisfactoria:S
para todo . Entonces, V S se llama el componente de forma de la matriz de dispersión (en la matriz de forma corta) y σ S = S 1 / 2 ( Σ ) se llama el componente de escala de la matriz de dispersión. Ejemplos de problemas de estimación multivariada donde la función de pérdida solo depende de Σ a través de su componente de formaλ > 0 VS σS= S1 / 2( Σ) Σ incluyen pruebas de esfericidad, PCA y CCA, entre otros.VS
Por supuesto, hay muchas funciones de escala posibles, por lo que esto deja abierta la cuestión de qué (si hay alguna) de varias opciones de función de normalización es, en cierto sentido, óptima. Por ejemplo:S
Sin embargo, es la única función de escala para la cual la matriz de información de Fisher para las estimaciones correspondientes de escala y forma, en familias localmente asintóticamente normales, es diagonal de bloque (es decir, los componentes de escala y forma del problema de estimación son asintóticamente ortogonales) [0 ] Esto significa, entre otras cosas, que la escala funcional S = | Σ | 1 / k es la única opción de S para la cual la no especificación de σ S no causa ninguna pérdida de eficiencia al realizar inferencia en V SS=|Σ|1/k S=|Σ|1/k S σS VS .
No conozco ninguna caracterización de optimización comparablemente fuerte para ninguna de las muchas opciones posibles de que satisfacen (1).S
fuente
La varianza de una variable escalar se define como la desviación al cuadrado de la variable de su media:
Se puede obtener una generalización de una varianza escalar para variables aleatorias con valores vectoriales interpretando la desviación como la distancia euclidiana :
Esta expresión puede reescribirse como
donde es la matriz de covarianza. Finalmente, esto se puede simplificar aC
cuál es el rastro de la matriz de covarianza.
fuente
Aunque la traza de la matriz de covarianza, tr (C) , le da una medida de la varianza total, no tiene en cuenta la correlación entre las variables.
Si necesita una medida de la varianza general que es grande cuando sus variables son independientes entre sí y es muy pequeña cuando las variables están altamente correlacionadas, puede usar el determinante de la matriz de covarianza, | C |.
Por favor, vea este artículo para una mejor aclaración.
fuente
If you need just one number, then I suggest a largest eigen value of a covariance matrix. This is also an explained variance of the first principal component in PCA. It tells you how much total variance can be explained if you reduce the dimensionality of your vector to one. See this answer on math SE.
The idea's that you collapse your vector into just one dimension by combining all variables linearly into one series. You end up with 1d problem.
The explained variance can be reported in % terms to the total variance. In this case you'll see immediately if there is a lot of linear correlation between series. In some applications this number can be 80% and higher, e.g. interest rate curve modeling in finance. It means that you can construct a linear combination of variables that explains 80 of variance of all variables.
fuente
The entropy concept from information theory seems to suit the purpose, as a measure of unpredictability of information content, which is given by
If we assume a multivariate Gaussian distribution forp(x) with mean μ and covariance Σ derived from the data, according to wikipedia, the differential entropy is then,
And it depends on the determinant of the covariance matrix, as @user603 suggests.
fuente