Hipervolumen de la

Estoy buscando el valor asintótico ( ) de (el logaritmo del determinante de) la covarianza del % de observaciones con la distancia euclediana más pequeña al origen en una muestra de tamaño extraída de, digamos , un estándar bivariado gaussiano. $n\rightarrow \infty$ $\alpha$ $n$

El hipervolumen de una elipse es proporcional al determinante de su matriz de covarianza, de ahí el título.

Por Gaussiano bivariado estándar, quiero decir donde es un vector de 0 de longitud 2 y es la matriz de identidad de rango 2. $\mathcal{N}_2(0_2,\pmb I_2)$ $0_2$ $\pmb I_2$

Es fácil verlo mediante simulaciones que cuando el número es aproximadamente : $\alpha=52/70$ $\approx -1.28$

library(MASS)
n<-10000
p<-2
x<-mvrnorm(n,rep(0,p),diag(2))
h<-ceiling(0.714286*n)
p<-ncol(x)
w<-mahalanobis(x,rep(0,p),diag(p),inverted=TRUE) #These are eucledian distances, because the covariance used is the identity matrix
s<-(1:n)[order(w)][1:h]
log(det(cov(x[s,])))

pero no recuerdo cómo obtener una expresión exacta (o en su defecto, una mejor aproximación) para esto.

r mathematical-statistics simulation usuario603
fuente

En su texto, no dice nada sobre los parámetros de la distribución bivariada. Además, parece que su código es sobre Mahalanobis d, no Euclidiana d.

ttnphns

Por gaussiano estándar me refiero al centrado en el origen y con covarianza de identidad (editaré esto en). Distancia de Mahalanobis wrt a la matriz de covarianza de identidad == distancias eucledianas.

user603

Si está utilizando el código o está buscando ayuda con el código, indique qué idioma o programa está utilizando.

Wolfies

Respuestas:

Ok, esta pregunta parece surgir de vez en cuando, así que pensé en dar una respuesta general.

En [1], los autores muestran que si $\pmb x_i\sim \mathcal{N}_p(\pmb \mu,\pmb \varSigma),i=1,\ldots,n$ con $\varSigma$ simétrica positiva definida, y $S_{\alpha}$

\begin{matrix} (0) & S_{α} = {i : (x x_{i} - μ μ)^{'} Σ^{- 1} (x x_{i} - μ μ) ⩽ q_{α}} \end{matrix}

$S_{\alpha}=\{i: (\pmb x_i-\pmb\mu)'\varSigma^{-1}(\pmb x_i-\pmb\mu)\leqslant q_{\alpha}\}\label{a}\tag{0}$

para y $q_{\alpha}=\chi^2_{p}(\alpha),\;0<\alpha\leqslant 1$

\begin{matrix} (1) & C_{α} = {cov}_{i \in S_{α}} x x_{i} \end{matrix}

$C_{\alpha}=\mbox{cov}_{i\in S_{\alpha}}\pmb x_i\label{b}\tag{1}$

Luego, asintóticamente, converge a donde $C_{\alpha}$ $l_{\alpha}\varSigma$

\begin{matrix} (2) & l_{α} = \frac{F_{χ_{p + 2}^{2} (q_{α})}}{α} \end{matrix}

$l_{\alpha}=\frac{ F_{\chi^2_{p+2}(q_{\alpha})} }{\alpha}\label{c}\tag{2}$

Esta aproximación es realmente buena (aquí para alfa = 60/70):

library(MASS)
alpha<-60/70
p<-2
n<-1000000

radius<-sqrt(qchisq(alpha,df=p))
x0<-mvrnorm(n,rep(0,p),diag(p),empirical=TRUE)
Id<-which(rowSums(x0*x0)<=radius**2)
cov(x0[Id,])

qalpa<-qchisq(alpha,p)
diag(1/(alpha/(pchisq(qalpa,p+2))),p)

Entonces, finalmente, para responder la pregunta, el determinante de la matriz de covarianza de las observaciones con la norma Euclediana más pequeña hasta el origen (este es el caso particular donde y ) viene dado por: $\log$ $[\alpha n]$ $\varSigma=\pmb I_p$ $\pmb \mu=\pmb 0_p$

\begin{matrix} (3) & p \log F_{χ_{p + 2}^{2} (q_{α})} - p \log α \end{matrix}

$p\log F_{\chi^2_{p+2}(q_{\alpha})}-p\log\alpha\label{d}\tag{3}$

Croux C., Haesbroeck G. (1999). Función de influencia y eficiencia del estimador de matriz de dispersión determinante de covarianza mínima. Revista de Análisis Multivariante. 71. 161--190.

usuario603
fuente