Distribución de una distancia de Mahalanobis a nivel de observación

23

Si tengo una muestra de iid normal multivariante y defino (que es una especie de distancia de Mahalanobis [al cuadrado] desde un punto de muestra al vector usando la matriz para ponderar), ¿cuál es la distribución de (distancia de Mahalanobis al muestra media usando la matriz de covarianza de muestra )?X1,,XnNp(μ,Σ)

di2(b,A)=(Xib)A1(Xib)
aA di2(X¯,S)X¯S

Estoy mirando un artículo que dice que es , pero esto obviamente es incorrecto: la se habría obtenido para utilizando el vector medio de población (desconocido) y matriz de covarianza. Cuando se conectan los análogos de muestra, se debe obtener una distribución Hotelling , o una distribución escalada , o algo así, pero no el . No pude encontrar el resultado exacto ni en Muirhead (2005) , ni en Anderson (2003) , ni en Mardia, Kent y Bibby (1979, 2003) χ 2 p d 2 i ( μ , Σ ) T 2 F ( ) χ 2 pχp2χp2di2(μ,Σ)T 2F()χp2. Aparentemente, estos tipos no se molestaron con diagnósticos atípicos, ya que la distribución normal multivariada es perfecta y se obtiene fácilmente cada vez que se recopilan datos multivariados: - /.

Las cosas pueden ser más complicadas que eso. El resultado de la distribución de Hotelling T 2 se basa en asumir la independencia entre la parte del vector y la parte de la matriz; tal independencia se mantiene para X¯ y S , pero ya no es válida para Xi y S .

StasK
fuente
En la definición de di2 , ¿todavía ve Xi como una variable aleatoria o ahora lo trata como un vector fijo? Incluir el subíndice sugiere lo último, pero eso parece un poco extraño.
whuber
1
Solo una pequeña nota al margen, pero tenga en cuenta que XiX¯ es auxiliar con respecto a μ y idi2(X¯,S) es igual a una constante fija ( debería ser np , o similar, creo) casi seguro.
cardenal
1
@whuber: ¿quizás para enfatizar que se calcula utilizando una observación de la muestra, no una nueva observación?
jbowman
1
@whuber, más o menos en la línea de lo que dijo jbowman, para indicar que esta es una estadística de nivel de observación (en oposición a una estadística de nivel de muestra, como la media de la muestra).
StasK
1
La distribución de es beta, , pero todavía estoy buscando la distribución de . Las distribuciones de los no son independientes. n / ( n - 1 ) 2 d 2 i ( ˉ X , S ) B ( p / 2 , ( n - p - 1 ) / 2 ) d 2 i ( μ , S ) d 2 idi2(X¯,S)n/(n1)2di2(X¯,S)B(p/2,(np1)/2)di2(μ,S)di2

Respuestas:

18

Echa un vistazo a los modelos de mezcla gaussiana explotando la distancia de Mahalanobis ( enlace alternativo ). Ver página no 13, segunda columna. Los autores también dieron algunas pruebas también para derivar la distribución. La distribución es beta escalada. Avíseme si esto no funciona para usted. De lo contrario, podría revisar cualquier pista en el libro de SS Wilks mañana.

vinux
fuente
44
La respuesta dada en el documento es: . ¡Gracias! n(n1)2di2(X¯,S)B(p2,np12)
StasK
9

Hay 3 distribuciones relevantes. Como se señaló, si se usan los parámetros de población verdaderos, entonces la distribución es chi-cuadrado con . Esta es también la distribución asintótica con parámetros estimados y gran tamaño de muestra.df=p

Otra respuesta proporciona la distribución correcta para la situación más común, con parámetros estimados cuando la observación en sí misma es parte del conjunto de estimación: Sin embargo, si la observación es independiente de las estimaciones de los parámetros, entonces la distribución es proporcional a la distribución de la relación F de Fisher:

n(d2)(n1)2Beta(p2,(np1)2).
xi
(nd2(np)(p(n1)(n+1))F(p,np)
Joe Sullivan
fuente
Bienvenido al sitio, @ JoeSullivan. Me tomé la libertad de usar para que tus ecuaciones sean más fáciles de leer. Asegúrate de que sigan diciendo lo que quieres. LATEX
gung - Restablece a Monica
¿Puedes dar una referencia para la fórmula F?
eyaler
1
una referencia relacionada, sección 3 en Hardin, Johanna y David M. Rocke. 2005. "La distribución de distancias robustas". Journal of Computational and Graphical Statistics 14 (4): 928–46. doi: 10.1198 / 106186005X77685.
Josef