Hipervolumen de la

8

Estoy buscando el valor asintótico ( ) de (el logaritmo del determinante de) la covarianza del % de observaciones con la distancia euclediana más pequeña al origen en una muestra de tamaño extraída de, digamos , un estándar bivariado gaussiano.nαn

El hipervolumen de una elipse es proporcional al determinante de su matriz de covarianza, de ahí el título.

Por Gaussiano bivariado estándar, quiero decir donde es un vector de 0 de longitud 2 y es la matriz de identidad de rango 2.N2(02,II2)02II2

Es fácil verlo mediante simulaciones que cuando el número es aproximadamente :α=52/701.28

library(MASS)
n<-10000
p<-2
x<-mvrnorm(n,rep(0,p),diag(2))
h<-ceiling(0.714286*n)
p<-ncol(x)
w<-mahalanobis(x,rep(0,p),diag(p),inverted=TRUE) #These are eucledian distances, because the covariance used is the identity matrix
s<-(1:n)[order(w)][1:h]
log(det(cov(x[s,])))

pero no recuerdo cómo obtener una expresión exacta (o en su defecto, una mejor aproximación) para esto.

usuario603
fuente
1
En su texto, no dice nada sobre los parámetros de la distribución bivariada. Además, parece que su código es sobre Mahalanobis d, no Euclidiana d.
ttnphns
1
Por gaussiano estándar me refiero al centrado en el origen y con covarianza de identidad (editaré esto en). Distancia de Mahalanobis wrt a la matriz de covarianza de identidad == distancias eucledianas.
user603
1
Si está utilizando el código o está buscando ayuda con el código, indique qué idioma o programa está utilizando.
Wolfies

Respuestas:

7

Ok, esta pregunta parece surgir de vez en cuando, así que pensé en dar una respuesta general.

En [1], los autores muestran que si xxiNp(μμ,ΣΣ),i=1,,n con Σ simétrica positiva definida, y Sα

(0)Sα={i:(xxiμμ)Σ1(xxiμμ)qα}

para yqα=χp2(α),0<α1

(1)Cα=coviSαxxi

Luego, asintóticamente, converge a dondeCαlαΣ

(2)lα=Fχp+22(qα)α

Esta aproximación es realmente buena (aquí para alfa = 60/70):

library(MASS)
alpha<-60/70
p<-2
n<-1000000

radius<-sqrt(qchisq(alpha,df=p))
x0<-mvrnorm(n,rep(0,p),diag(p),empirical=TRUE)
Id<-which(rowSums(x0*x0)<=radius**2)
cov(x0[Id,])

qalpa<-qchisq(alpha,p)
diag(1/(alpha/(pchisq(qalpa,p+2))),p)

Entonces, finalmente, para responder la pregunta, el determinante de la matriz de covarianza de las observaciones con la norma Euclediana más pequeña hasta el origen (este es el caso particular donde y ) viene dado por:log[αn]Σ=IIpμμ=00p

(3)plogFχp+22(qα)plogα
  1. Croux C., Haesbroeck G. (1999). Función de influencia y eficiencia del estimador de matriz de dispersión determinante de covarianza mínima. Revista de Análisis Multivariante. 71. 161--190.
usuario603
fuente