¿Los determinantes de las matrices de covarianza y correlación y / o sus inversiones tienen interpretaciones útiles?

9

Mientras aprendía a calcular las matrices de covarianza y correlación y sus inversas en VB y T-SQL hace unos años, aprendí que las diversas entradas tienen propiedades interesantes que pueden hacerlas útiles en los escenarios correctos de minería de datos. Un ejemplo obvio es la presencia de variaciones en las diagonales de las matrices de covarianza; Algunos ejemplos menos obvios que todavía tengo que usar, pero que podrían ser útiles en algún momento, son los factores de inflación de varianza en las matrices de correlación inversa y las correlaciones parciales en las matrices de covarianza inversa.

Sin embargo, una cosa que todavía tengo que ver directamente abordada en la literatura es cómo interpretar los determinantes de estas matrices. Como los determinantes se calculan con frecuencia para otros tipos de matrices, esperaba encontrar una gran cantidad de información sobre ellos, pero he aparecido muy poco en búsquedas casuales tanto en los foros de StackExchange como en el resto de Internet. La mayoría de las menciones que he encontrado giran en torno al uso de los determinantes como un solo paso en el proceso de cálculo de otras pruebas y algoritmos estadísticos, como el Análisis de componentes principales (PCA) y una de las pruebas de Hotelling; ninguno aborda directamente cómo interpretar estos determinantes, por sí solos. ¿Hay alguna razón práctica por la que no se discuten a menudo en la literatura sobre minería de datos? Más importante, ¿Proporcionan alguna información útil de manera independiente? De ser así, ¿cómo podría interpretar los determinantes de cada uno? Me doy cuenta de que los determinantes son un tipo de volumen con signo inducido por una transformación lineal, por lo que sospecho que los determinantes de estos determinantes particulares podrían significar algún tipo de medida volumétrica de covarianza o correlación, etc. sobre un conjunto completo, o algo por el estilo ( a diferencia de la covarianza y correlación ordinarias, que se encuentran entre dos atributos o variables). Eso también plantea la pregunta de qué tipo de volumen representarían sus inversas. No estoy lo suficientemente familiarizado con el tema o la matemática de matriz pesada involucrada para especular más, pero soy capaz de codificar los cuatro tipos de matrices y sus determinantes. Mi pregunta no es apremiante pero a la larga tendré que tomar decisiones sobre si vale la pena incluir regularmente estas matrices y sus determinantes en mis procesos exploratorios de minería de datos. Es más barato calcular la covarianza y la correlación de manera individual y bivariada en estos idiomas en particular, pero haré un esfuerzo adicional e implementaré cálculos determinantes si puedo obtener algunas ideas más profundas que justifiquen el gasto en términos de recursos de programación Gracias por adelantado. Haré un esfuerzo adicional e implementaré cálculos determinantes si puedo obtener algunas ideas más profundas que justifiquen el gasto en términos de recursos de programación. Gracias por adelantado. Haré un esfuerzo adicional e implementaré cálculos determinantes si puedo obtener algunas ideas más profundas que justifiquen el gasto en términos de recursos de programación. Gracias por adelantado.

SQLServerSteve
fuente
¿Qué entiendes por covarianza o correlación ordinaria?
Subhash C. Davar

Respuestas:

10

Pude improvisar algunos principios generales, casos de uso y propiedades de estas matrices de un conjunto de fuentes deslumbrante; pocos de ellos abordan estos temas directamente, y la mayoría simplemente se menciona de pasada. Dado que los determinantes representan volúmenes con signo, esperaba que los pertenecientes a estos cuatro tipos de matrices se tradujeran en medidas de asociación multidimensional de algún tipo; Esto resultó ser cierto hasta cierto punto, pero algunos de ellos exhiben propiedades interesantes:

Matrices de covarianza:

• En el caso de una distribución gaussiana, el determinante mide indirectamente la entropía diferencial, que puede interpretarse como una dispersión de los puntos de datos a través del volumen de la matriz. Vea la respuesta de tmp en ¿Qué da la Matriz de determinante de covarianza ? para detalles.

• La respuesta de Alexander Vigodner en el mismo hilo dice que también posee la propiedad de positividad.

• El determinante de la matriz de covarianza puede interpretarse como una varianza generalizada. Consulte el Manual de estadísticas del NIST en la página 6.5.3.2. Determinante y estructura propia .

Matrices de covarianza inversa:

• Es equivalente a la inversa de la varianza generalizada que representa el determinante de la matriz de covarianza; la maximización del determinante de la matriz de covarianza inversa aparentemente puede usarse como un sustituto para calcular el determinante de la matriz de información de Fisher, que puede usarse para optimizar el diseño del experimento. Ver la respuesta de kjetil b halvorsen al hilo CV Determinante de la información de Fisher

Matrices de correlación:

• Estos son mucho más interesantes que los determinantes de la matriz de covarianza, ya que el volumen de correlación disminuye a medida que el determinante se acerca a 1 y aumenta a medida que este último se acerca a 0. Esto es lo opuesto a los coeficientes de correlación ordinarios, en los que los números más altos indican una mayor correlación positiva. "El determinante de la matriz de correlación será igual a 1.0 solo si todas las correlaciones son iguales a 0; de lo contrario, el determinante será menor que 1. Recuerde que el determinante está relacionado con el volumen del espacio ocupado por el enjambre de puntos de datos representados por puntajes estándar en las medidas involucradas. Cuando las medidas no están correlacionadas, este espacio es una esfera con un volumen de 1. Cuando las medidas están correlacionadas, el espacio ocupado se convierte en un elipsoide cuyo volumen es menor que 1. " Vereste conjunto de notas del curso de Tulane y esta página de Quora .

• Otra cita para este comportamiento inesperado: "El determinante de una matriz de correlación se convierte en cero o casi cero cuando algunas de las variables están perfectamente correlacionadas o altamente correlacionadas entre sí". Vea la pregunta de Rakesh Pandey ¿Cómo manejar el problema del determinante cercano a cero en la confiabilidad informática usando SPSS?

• Una tercera referencia: "Tener un det (R) muy pequeño solo significa que tiene algunas variables que dependen casi linealmente". La respuesta de Carlos Massera Filho en este hilo CrossValidated.

• Los determinantes también siguen una escala de 0 a 1, que difieren tanto de la escala de -1 a 1 que siguen los coeficientes de correlación. También carecen del signo de que un determinante ordinario puede exhibir al expresar la orientación de un volumen. Sin embargo, si el determinante de correlación todavía representa alguna noción de direccionalidad no se abordó en ninguna de las publicaciones que encontré.

Matrices de correlación inversa:

• Una búsqueda en Google de los términos combinados "matriz de correlación inversa" y "determinante" arrojó solo 50 aciertos, por lo que aparentemente no se aplican comúnmente al razonamiento estadístico.

• Aparentemente, la minimización del determinante de correlación inversa puede ser útil en algunas situaciones, dado que existe una patente para la cancelación de eco utilizando filtros adaptativos que contiene un procedimiento de regularización diseñado para hacer precisamente eso. Ver p. 5 en este documento de patente .

• pags. 5 de Robust Technology with Analysis of Interference in Signal Processing (disponible en avances de Google Books) por Telman Aliev parece sugerir que la "pobre estipulación" de una matriz de correlación está relacionada con la inestabilidad en el determinante de las matrices de correlación inversa. En otras palabras, los cambios salvajes en su determinante en proporción a pequeños cambios en sus elementos constituyentes están relacionados con la cantidad de información capturada por las matrices de correlación.

Puede haber otras propiedades y casos de uso de estos determinantes que no se enumeran aquí; Solo los publicaré en aras de la exhaustividad y para proporcionar una respuesta a la pregunta que planteé, en caso de que alguien más tenga usos prácticos para estas interpretaciones (como lo he hecho con los determinantes de correlación).

SQLServerSteve
fuente
Esperaré un poco más antes de aceptar mi propia respuesta, con la esperanza de que alguien más calificado venga y proporcione una mejor.
SQLServerSteve
3
¡Buena respuesta! Añadiría que los detectores se pueden usar en "antecedentes de diversidad", es decir, para alentar a los modelos de variables latentes a que no colapsen en óptimos locales de mierda donde las variables latentes múltiples son idénticas. Por ejemplo: papers.nips.cc/paper/…
eric_kernfeld
Gracias :) ¿Quizás debería agregar su comentario a la respuesta (con crédito, por supuesto) después de leer ese documento? No estoy al tanto de los antecedentes bayesianos, por lo que me puede tomar un tiempo digerirlo.
SQLServerSteve
Acepté mi propia respuesta, pero no la aceptaré si se publica una mejor. Todavía me gustaría recibir más información sobre estas interpretaciones.
SQLServerSteve