Tengo curiosidad sobre la naturaleza de . ¿Alguien puede decir algo intuitivo sobre "¿Qué dice sobre los datos?"
Editar:
Gracias por las respuestas
Después de tomar algunos cursos excelentes, me gustaría agregar algunos puntos:
- Es una medida de la información, es decir, es la cantidad de información a lo largo de la dirección .
- Dualidad: dado que es positivo definido, también lo es , por lo que son normas de productos de punto, más precisamente son normas duales entre sí, por lo que podemos derivar Fenchel dual para el problema de mínimos cuadrados regularizados y hacer maximización wrt dual problema. Podemos elegir cualquiera de ellos, dependiendo de su condicionamiento.
- Espacio de Hilbert: las columnas (y filas) de y abarcan el mismo espacio. Por lo tanto, no hay ninguna ventaja (aparte de que cuando una de estas matrices está mal acondicionada) entre la representación con o
- Estadísticas frecuentes: está estrechamente relacionada con la información de Fisher, utilizando el límite Cramér-Rao. De hecho, la matriz de información del pescador (producto externo del gradiente de log-verosimilitud consigo mismo) está unida a Cramér-Rao, es decir, (cono positivo semi-definido positivo, concentración iewrt positiva elipsoides). Entonces, cuando \ Sigma ^ {- 1} = \ mathcal {F} el estimador de máxima verosimilitud es eficiente, es decir, existe información máxima en los datos, por lo que el régimen frecuentista es óptimo. En palabras más simples, para algunas funciones de probabilidad (tenga en cuenta que la forma funcional de la probabilidad depende únicamente del modelo probabilístico que supuestamente generó datos, también conocido como modelo generativo), la probabilidad máxima es un estimador eficiente y consistente, reglas como un jefe. (perdón por matarlo demasiado)
Respuestas:
Es una medida de precisión al igual que es una medida de dispersión.Σ
De manera más elaborada, es una medida de cómo las variables se dispersan alrededor de la media (los elementos diagonales) y cómo co-varían con otras variables (los elementos fuera de la diagonal). Cuanto mayor es la dispersión, más alejados están de la media y más varían conjuntamente (en valor absoluto) con las otras variables, más fuerte es la tendencia a que se "muevan juntas" (en la misma dirección o en dirección opuesta dependiendo de signo de la covarianza).Σ
Del mismo modo, es una medida de cuán estrechamente agrupadas están las variables alrededor de la media (los elementos diagonales) y el grado en que no varían conjuntamente con las otras variables (los elementos fuera de la diagonal). Por lo tanto, cuanto más alto es el elemento diagonal, más apretada se agrupa la variable alrededor de la media. La interpretación de los elementos fuera de la diagonal es más sutil y me remito a las otras respuestas para esa interpretación.Σ−1
fuente
Usando superíndices para denotar los elementos del inverso, es la varianza del componente de la variable que no está correlacionada con las otras variables , y es la correlación parcial de las variables y , controlando las otras variables .1/σii i p−1 −σij/σiiσjj−−−−−√ i j p−2
fuente