¿Cómo se comprueba si dos distribuciones multivariadas se muestrean de la misma población subyacente?

13

Digamos que se le dan dos conjuntos de datos multivariados, digamos uno antiguo y uno nuevo, y que se supone que fueron generados por el mismo proceso (para el que no tiene modelo), pero tal vez, en algún lugar a lo largo de la línea de recopilación / creación los datos, algo salió mal. No querrá utilizar los nuevos datos como, por ejemplo, un conjunto de validación para los datos antiguos o agregarlos a los datos antiguos.

Puede hacer un montón de estadísticas 1-d (por variable), por ejemplo, suma de rango de Wilcoxon, y probar algunas correcciones de prueba múltiple, pero no estoy seguro de que sea óptimo (para capturar las complejidades de los datos multivariados y mucho menos problemas de múltiples pruebas). Una forma es usar un clasificador y ver si puede discriminar entre los dos conjuntos de datos (dado un clasificador óptimo que sea óptimo). Eso parece funcionar, pero aún así a) perhpas hay una mejor manera b) Realmente no está diseñado para decirte por qué es diferente (si no, usará los mejores predictores y posiblemente perderá otros buenos predictores que fueron superados por los mejores)

un diamante
fuente

Respuestas:

3
http://131.95.113.139/courses/multivariate/mantel.pdf

Analiza dos formas posibles de hacerlo si sus conjuntos de datos son del mismo tamaño. El enfoque básico es calcular una métrica de distancia entre sus dos matrices observadas. Luego, para determinar si esa distancia es significativa, utilice una prueba de permutación .

Si sus conjuntos de datos no son del mismo tamaño, puede usar la prueba de coincidencia cruzada, aunque no parece ser muy popular. En lugar de la prueba de coincidencia cruzada, puede intentar aumentar o disminuir el muestreo de sus datos para que tengan el mismo tamaño y luego usar uno de los enfoques mencionados en el primer documento.

Amit Deshwar
fuente
Usted menciona que si tenemos conjuntos de datos de tamaño desigual, use la prueba de coincidencia cruzada. Sin embargo, siguiendo el artículo que menciona, usan conjuntos de datos iguales y buscan emparejarse según las distancias. ¿Has encontrado alguna evidencia de que esto se esté utilizando? incluso en las notas de la versión para la coincidencia cruzada, el ejemplo utiliza conjuntos de datos iguales
lukeg