Estoy buscando una buena terminología para describir lo que estoy tratando de hacer, para que sea más fácil buscar recursos.
Entonces, supongamos que tengo dos grupos de puntos A y B, cada uno asociado a dos valores, X e Y, y quiero medir la "distancia" entre A y B, es decir, qué tan probable es que se muestrearon de la misma distribución (Puedo suponer que las distribuciones son normales). Por ejemplo, si X e Y están correlacionados en A pero no en B, las distribuciones son diferentes.
Intuitivamente, obtendría la matriz de covarianza de A, y luego vería cuán probable es que cada punto en B encaje allí, y viceversa (probablemente usando algo como la distancia de Mahalanobis).
Pero eso es un poco "ad-hoc", y probablemente haya una forma más rigurosa de describir esto (por supuesto, en la práctica tengo más de dos conjuntos de datos con más de dos variables; estoy tratando de identificar cuál de mis conjuntos de datos son valores atípicos).
¡Gracias!
Respuestas:
También existe la divergencia Kullback-Leibler , que está relacionada con la Distancia Hellinger que mencionas anteriormente.
fuente
Hmm, la distancia Bhattacharyya parece ser lo que estoy buscando, aunque la distancia Hellinger también funciona.
fuente
Heurístico
Estadísticas de prueba no paramétricas
Divergencias de la teoría de la información
Medidas de distancia al suelo
fuente
La encuesta más completa se proporciona en Inferencia estadística basada en medidas de divergencia por Leandro Pardo, Universidad Complutense, Chapman Hall 2006.
fuente
Pocas medidas más de "diferencia estadística"
fuente