Prueba de Kolmogorov-Smirnov para datos multivariados

8

Tengo un conjunto de archivos que consta de puntos seleccionados al azar de un conjunto de datos, cada archivo pertenece a una clase en particular. Cada fila en estos archivos contiene las coordenadas en el espacio n del punto. Me gustaría comparar las distribuciones en n-space de cada uno de estos archivos, y me inspira la prueba de KS para comparar histogramas. Por lo que he leído, este método no se extiende bien a los datos multivariados. Anteriormente había usado PCA, pero toda mi variación colapsó en una sola dimensión ruidosa y los métodos de agrupamiento fueron inútiles.

Mi pregunta: ¿hay alguna razón por la que no debería usar un promedio de los valores de KS en el histograma para cada una de las n dimensiones como una métrica de la bondad del ajuste? ¿Existe un mejor método para comparar estas distribuciones?

bab
fuente

Respuestas:

3

ROOT admite las pruebas de Kolmogorov en histogramas de dimensiones superiores, y las notas (para la versión 2D) sugieren que existe una ambigüedad, a la que se enfrentan punteando: calcúlelo en ambos sentidos. No sé si el código contiene más detalles, pero los comentarios a veces tienen referencias a documentos y similares.

Hay algunos comentarios interesantes adicionales en las notas a TH1::KolmogorovTest.

dmckee --- gatito ex moderador
fuente
3

X¯CV(X): =(X-X¯)TC-1(X-X¯)

Arnold Neumaier
fuente