Estoy buscando el valor asintótico ( ) de (el logaritmo del determinante de) la covarianza del % de observaciones con la distancia euclediana más pequeña al origen en una muestra de tamaño extraída de, digamos , un estándar bivariado gaussiano.
El hipervolumen de una elipse es proporcional al determinante de su matriz de covarianza, de ahí el título.
Por Gaussiano bivariado estándar, quiero decir donde es un vector de 0 de longitud 2 y es la matriz de identidad de rango 2.
Es fácil verlo mediante simulaciones que cuando el número es aproximadamente :
library(MASS)
n<-10000
p<-2
x<-mvrnorm(n,rep(0,p),diag(2))
h<-ceiling(0.714286*n)
p<-ncol(x)
w<-mahalanobis(x,rep(0,p),diag(p),inverted=TRUE) #These are eucledian distances, because the covariance used is the identity matrix
s<-(1:n)[order(w)][1:h]
log(det(cov(x[s,])))
pero no recuerdo cómo obtener una expresión exacta (o en su defecto, una mejor aproximación) para esto.
r
mathematical-statistics
simulation
usuario603
fuente
fuente
Respuestas:
Ok, esta pregunta parece surgir de vez en cuando, así que pensé en dar una respuesta general.
En [1], los autores muestran que sixxi∼Np(μμ,ΣΣ),i=1,…,n
con Σ simétrica positiva definida, y Sα
para yqα=χ2p(α),0<α⩽1
Luego, asintóticamente, converge a dondeCα lαΣ
Esta aproximación es realmente buena (aquí para alfa = 60/70):
Entonces, finalmente, para responder la pregunta, el determinante de la matriz de covarianza de las observaciones con la norma Euclediana más pequeña hasta el origen (este es el caso particular donde y ) viene dado por:log [αn] Σ=IIp μμ=00p
fuente