Distancia de Kullback – Leibler vs Kolmogorov-Smirnov

37

Puedo ver que hay muchas diferencias formales entre las medidas de distancia de Kullback-Leibler vs Kolmogorov-Smirnov. Sin embargo, ambos se usan para medir la distancia entre distribuciones.

¿Existe una situación típica en la que se debe usar uno en lugar del otro?
¿Cuál es la razón para hacerlo?

distributions distance-functions kolmogorov-smirnov kullback-leibler Greg
fuente

Una pregunta relacionada: stats.stackexchange.com/questions/4/…

GaBorgulya

23

La divergencia KL se usa típicamente en configuraciones teóricas de información, o incluso configuraciones bayesianas, para medir el cambio de información entre distribuciones antes y después de aplicar alguna inferencia, por ejemplo. No es una distancia en el sentido típico (métrico), debido a la falta de simetría y la desigualdad de triángulos, por lo que se usa en lugares donde la direccionalidad es significativa.

La distancia KS se usa típicamente en el contexto de una prueba no paramétrica. De hecho, rara vez lo he visto como una "distancia entre distribuciones" genérica, donde la distancia , la distancia de Jensen-Shannon y otras distancias son más comunes. $\ell_1$

Suresh Venkatasubramanian
fuente

55

Otro uso de la divergencia KL que vale la pena mencionar es en las pruebas de hipótesis. Suponga que

son iid de medidas con densidad

o

. Sea

. Por Neyman - Pearson, una prueba óptima rechaza cuando

es grande. Ahora, bajo

X_{1}, X_{2}, \dots

$X_1, X_2, \ldots$

p_{0}

$p_0$

p_{1}

$p_1$

T_{n} = n^{- 1} \sum_{i = 1}^{n} \log (p_{1} (X_{i}) / p_{0} (X_{i}))

$T_n = n^{-1} \sum_{i=1}^n \log( p_1(X_i) / p_0(X_i) )$

T_{n}

$T_n$

,

p_{0}

$p_0$

en probabilidad y bajo

,

T_{n} \to - D (p_{0} | | p_{1})

$T_n \to -D(p_0 \,\vert\vert\, p_1)$

p_{1}

$p_1$

. Desde

T_{n} \to D (p_{1} | | p_{0})

$T_n \to D(p_1 \,\vert\vert\, p_0)$

no es negativo, la implicación es que usar la regla

para rechazar

es asintóticamente perfecto.

D (\cdot | | \cdot)

$D(\cdot \,\vert\vert\, \cdot)$

T_{n} > 0

$T_n > 0$

p_{0}

$p_0$

cardenal

En efecto. Ese es un excelente ejemplo. Y, de hecho, la mayoría de las versiones generales de los límites de cola de Chernoff-Hoeffding utilizan la divergencia KL.

Suresh Venkatasubramanian

2

Otra forma de decir lo mismo que la respuesta anterior en términos más laicos:

KL Divergence: en realidad, proporciona una medida de cuán grande es la diferencia entre dos distribuciones entre sí. Como se mencionó en la respuesta anterior, esta medida no es una métrica de distancia apropiada ya que no es simétrica. Es decir, la distancia entre la distribución A y B es un valor diferente de la distancia entre la distribución B y A.

Prueba de Kolmogorov-Smirnov: esta es una métrica de evaluación que analiza la mayor separación entre la distribución acumulativa de una distribución de prueba en relación con una distribución de referencia. Además, puede usar esta métrica como un puntaje z contra la distribución de Kolmogorov para realizar una prueba de hipótesis sobre si la distribución de prueba es la misma distribución que la referencia. Esta métrica se puede usar como una función de distancia, ya que es simétrica. Es decir, la mayor separación entre CDF de A frente a CDF de B es igual a la mayor separación entre CDF de B frente a CDF de A.

SriK
fuente

Distancia de Kullback – Leibler vs Kolmogorov-Smirnov

Respuestas: