Medición de la "distancia" entre dos distribuciones multivariadas

28

Estoy buscando una buena terminología para describir lo que estoy tratando de hacer, para que sea más fácil buscar recursos.

Entonces, supongamos que tengo dos grupos de puntos A y B, cada uno asociado a dos valores, X e Y, y quiero medir la "distancia" entre A y B, es decir, qué tan probable es que se muestrearon de la misma distribución (Puedo suponer que las distribuciones son normales). Por ejemplo, si X e Y están correlacionados en A pero no en B, las distribuciones son diferentes.

Intuitivamente, obtendría la matriz de covarianza de A, y luego vería cuán probable es que cada punto en B encaje allí, y viceversa (probablemente usando algo como la distancia de Mahalanobis).

Pero eso es un poco "ad-hoc", y probablemente haya una forma más rigurosa de describir esto (por supuesto, en la práctica tengo más de dos conjuntos de datos con más de dos variables; estoy tratando de identificar cuál de mis conjuntos de datos son valores atípicos).

¡Gracias!

Emile
fuente
No sé por qué, pero una prueba de Mantel apareció frente a mis ojos cuando leí tu publicación.
Roman Luštrik el

Respuestas:

15

También existe la divergencia Kullback-Leibler , que está relacionada con la Distancia Hellinger que mencionas anteriormente.

Restablece a Mónica - G. Simpson
fuente
2
¿Se puede calcular la divergencia de puntos de Kullback-Leibler sin suponer la densidad de probabilidad subyacente de la que provienen los puntos?
Andre Holzner el
16

Hmm, la distancia Bhattacharyya parece ser lo que estoy buscando, aunque la distancia Hellinger también funciona.

Emile
fuente
mencionas a Bhattacharyya y Helling y luego aceptas una respuesta hablando de KL ... Al final, ¿cuál fue tu elección y por qué?
Simon C.
1
Creo que fue una divergencia de KL, pero ... eso fue en 2010 y mi memoria está lejos de ser perfecta.
Emile
ahah sí, lo adiviné, pero gracias de todos modos
Simon C.
9

Heurístico

  • Forma Minkowski
  • Varianza media ponderada (WMV)

Estadísticas de prueba no paramétricas

  • 2 (Chi cuadrado)
  • Kolmogorov-Smirnov (KS)
  • Cramer / von Mises (CvM)

Divergencias de la teoría de la información

  • Kullback-Liebler (KL)
  • Jensen – Shannon divergencia (métrica)
  • Jeffrey-divergencia (numéricamente estable y simétrica)

Medidas de distancia al suelo

  • Intersección del histograma
  • Forma cuadrática (QF)
  • Distancia de movimiento de tierra (EMD)
skyde
fuente
0

Pocas medidas más de "diferencia estadística"

  • Prueba de permutación (por Fisher)
  • Teorema del límite central y teorema de Slutsky
  • Prueba de Mann-Whitney-Wilcoxin
  • Prueba de Anderson-Darling
  • Prueba de Shapiro-Wilk
  • Prueba de Hosmer-Lemeshow
  • Prueba de Kuiper
  • discrepancia de Stein kernelized
  • Jaccard similitud
  • Además, el agrupamiento jerárquico trata con medidas de similitud entre grupos. Las medidas más populares de similitud grupal son quizás el enlace único, el enlace completo y el enlace promedio.
Danylo Zherebetskyy
fuente