Digamos que se le dan dos conjuntos de datos multivariados, digamos uno antiguo y uno nuevo, y que se supone que fueron generados por el mismo proceso (para el que no tiene modelo), pero tal vez, en algún lugar a lo largo de la línea de recopilación / creación los datos, algo salió mal. No querrá utilizar los nuevos datos como, por ejemplo, un conjunto de validación para los datos antiguos o agregarlos a los datos antiguos.
Puede hacer un montón de estadísticas 1-d (por variable), por ejemplo, suma de rango de Wilcoxon, y probar algunas correcciones de prueba múltiple, pero no estoy seguro de que sea óptimo (para capturar las complejidades de los datos multivariados y mucho menos problemas de múltiples pruebas). Una forma es usar un clasificador y ver si puede discriminar entre los dos conjuntos de datos (dado un clasificador óptimo que sea óptimo). Eso parece funcionar, pero aún así a) perhpas hay una mejor manera b) Realmente no está diseñado para decirte por qué es diferente (si no, usará los mejores predictores y posiblemente perderá otros buenos predictores que fueron superados por los mejores)
fuente
Busque el T ^ 2 de Hotelling, o si tiene datos muy tenues, mire esto: http://normaldeviate.wordpress.com/2012/07/14/modern-two-sample-tests/
fuente