Distancia de Kullback – Leibler vs Kolmogorov-Smirnov

Respuestas:

23

La divergencia KL se usa típicamente en configuraciones teóricas de información, o incluso configuraciones bayesianas, para medir el cambio de información entre distribuciones antes y después de aplicar alguna inferencia, por ejemplo. No es una distancia en el sentido típico (métrico), debido a la falta de simetría y la desigualdad de triángulos, por lo que se usa en lugares donde la direccionalidad es significativa.

La distancia KS se usa típicamente en el contexto de una prueba no paramétrica. De hecho, rara vez lo he visto como una "distancia entre distribuciones" genérica, donde la distancia , la distancia de Jensen-Shannon y otras distancias son más comunes.1

Suresh Venkatasubramanian
fuente
55
Otro uso de la divergencia KL que vale la pena mencionar es en las pruebas de hipótesis. Suponga que son iid de medidas con densidad p 0 o p 1 . Sea T n = n - 1n i = 1 log ( p 1 ( X i ) / p 0 ( X i ) ) . Por Neyman - Pearson, una prueba óptima rechaza cuando T n es grande. Ahora, bajo pX1,X2,p0p1Tn=n1i=1nlog(p1(Xi)/p0(Xi))Tn , T n- D ( p 0p0 en probabilidad y bajo p 1 , T nD ( p 1TnD(p0||p1)p1 . Desde D ( TnD(p1||p0) no es negativo, la implicación es que usar la regla T n > 0 para rechazar p 0 es asintóticamente perfecto. D(||)Tn>0p0
cardenal
En efecto. Ese es un excelente ejemplo. Y, de hecho, la mayoría de las versiones generales de los límites de cola de Chernoff-Hoeffding utilizan la divergencia KL.
Suresh Venkatasubramanian
2

Otra forma de decir lo mismo que la respuesta anterior en términos más laicos:

KL Divergence: en realidad, proporciona una medida de cuán grande es la diferencia entre dos distribuciones entre sí. Como se mencionó en la respuesta anterior, esta medida no es una métrica de distancia apropiada ya que no es simétrica. Es decir, la distancia entre la distribución A y B es un valor diferente de la distancia entre la distribución B y A.

Prueba de Kolmogorov-Smirnov: esta es una métrica de evaluación que analiza la mayor separación entre la distribución acumulativa de una distribución de prueba en relación con una distribución de referencia. Además, puede usar esta métrica como un puntaje z contra la distribución de Kolmogorov para realizar una prueba de hipótesis sobre si la distribución de prueba es la misma distribución que la referencia. Esta métrica se puede usar como una función de distancia, ya que es simétrica. Es decir, la mayor separación entre CDF de A frente a CDF de B es igual a la mayor separación entre CDF de B frente a CDF de A.

SriK
fuente