Si tengo una muestra de iid normal multivariante y defino (que es una especie de distancia de Mahalanobis [al cuadrado] desde un punto de muestra al vector usando la matriz para ponderar), ¿cuál es la distribución de (distancia de Mahalanobis al muestra media usando la matriz de covarianza de muestra )?
Estoy mirando un artículo que dice que es , pero esto obviamente es incorrecto: la se habría obtenido para utilizando el vector medio de población (desconocido) y matriz de covarianza. Cuando se conectan los análogos de muestra, se debe obtener una distribución Hotelling , o una distribución escalada , o algo así, pero no el . No pude encontrar el resultado exacto ni en Muirhead (2005) , ni en Anderson (2003) , ni en Mardia, Kent y Bibby (1979, 2003) χ 2 p d 2 i ( μ , Σ ) T 2 F ( ⋅ ) χ 2 p. Aparentemente, estos tipos no se molestaron con diagnósticos atípicos, ya que la distribución normal multivariada es perfecta y se obtiene fácilmente cada vez que se recopilan datos multivariados: - /.
Las cosas pueden ser más complicadas que eso. El resultado de la distribución de Hotelling se basa en asumir la independencia entre la parte del vector y la parte de la matriz; tal independencia se mantiene para y , pero ya no es válida para y .
Respuestas:
Echa un vistazo a los modelos de mezcla gaussiana explotando la distancia de Mahalanobis ( enlace alternativo ). Ver página no 13, segunda columna. Los autores también dieron algunas pruebas también para derivar la distribución. La distribución es beta escalada. Avíseme si esto no funciona para usted. De lo contrario, podría revisar cualquier pista en el libro de SS Wilks mañana.
fuente
Hay 3 distribuciones relevantes. Como se señaló, si se usan los parámetros de población verdaderos, entonces la distribución es chi-cuadrado con . Esta es también la distribución asintótica con parámetros estimados y gran tamaño de muestra.df=p
Otra respuesta proporciona la distribución correcta para la situación más común, con parámetros estimados cuando la observación en sí misma es parte del conjunto de estimación: Sin embargo, si la observación es independiente de las estimaciones de los parámetros, entonces la distribución es proporcional a la distribución de la relación F de Fisher:
fuente