Mira esta imagen:
Si extraemos una muestra de la densidad roja, se espera que algunos valores sean inferiores a 0.25, mientras que es imposible generar dicha muestra a partir de la distribución azul. Como consecuencia, la distancia Kullback-Leibler de la densidad roja a la densidad azul es infinita. Sin embargo, las dos curvas no son tan distintas, en algún "sentido natural".
Aquí está mi pregunta: ¿Existe una adaptación de la distancia Kullback-Leibler que permita una distancia finita entre estas dos curvas?
kullback-leibler
ocram
fuente
fuente
Respuestas:
Puede consultar el Capítulo 3 de Devroye, Gyorfi y Lugosi, A Probabilistic Theory of Pattern Recognition , Springer, 1996. Consulte, en particular, la sección sobre -divergencias.f
-Divergences puede verse como una generalización de Kullback - Leibler (o, alternativamente, KL puede verse como un caso especial de una f -Divergencia).f f
La forma general es
donde es una medida que domina las medidas asociadas con p y q y f ( ⋅ ) es una función convexa satisfacer f ( 1 ) = 0 . (Si p ( x ) y q ( x ) son densidades con respecto a la medida de Lebesgue, simplemente sustituya la notación d x por λ ( d x ) y estará listo para comenzar.)λ p q f(⋅) f(1)=0 p(x) q(x) dx λ(dx)
Recuperamos KL tomando . Podemos obtener la diferencia de Hellinger a través de f ( x ) = ( 1 - √f(x)=xlogx y obtenemos lavariación totaloL1distancia tomandof(x)= 1f(x)=(1−x−−√)2 L1 . Este último daf(x)=12|x−1|
Tenga en cuenta que este último al menos le da una respuesta finita.
fuente
Anexo 2 @cardinal comenta que también es una divergencia , para la función convexaη f
fuente
La distancia de Kolmogorov entre dos distribuciones y es la norma superior de sus CDF. (Esta es la mayor discrepancia vertical entre los dos gráficos de los CDF). Se utiliza en pruebas de distribución donde es una distribución hipotética y es la función de distribución empírica de un conjunto de datos.P Q P Q
Es difícil caracterizar esto como una "adaptación" de la distancia KL, pero cumple con los otros requisitos de ser "natural" y finito.
Por cierto, debido a que la divergencia KL no es una verdadera "distancia", no tenemos que preocuparnos por preservar todas las propiedades axiomáticas de una distancia. Podemos mantener la propiedad de no-negatividad al tiempo que los valores finitos mediante la aplicación de cualquier transformación monotónica para algún valor finito . La tangente inversa funcionará bien, por ejemplo.R+→[0,C] C
fuente
Sí, Bernardo y Reuda definieron algo llamado "discrepancia intrínseca" que para todos los efectos es una versión "simétrica" de la divergencia KL. Tomando la divergencia KL de a como La discrepancia intrínseca viene dada por:P Q κ(P∣Q)
La búsqueda de discrepancias intrínsecas (o criterio de referencia bayesiano) le dará algunos artículos sobre esta medida.
En su caso, simplemente tomaría la divergencia KL que es finita.
Otra medida alternativa a KL es la distancia de Hellinger
EDITAR: aclaración, algunos comentarios planteados sugieren que la discrepancia intrínseca no será finita cuando una densidad 0 cuando la otra no lo sea. Esto no es cierto si la operación de evaluar la densidad cero se lleva a cabo como un límite o . El límite está bien definido y es igual a para una de las divergencias de KL, mientras que la otra divergerá. Para ver esta nota:Q→0 P→0 0
Tomando el límite como sobre una región de la integral, la segunda integral diverge y la primera integral converge a sobre esta región (suponiendo que las condiciones sean tales que uno pueda intercambiar límites e integración). Esto se debe a que . Debido a la simetría en y el resultado también es válido para .P→0 0 limz→0zlog(z)=0 P Q Q
fuente