¿Una adaptación de la distancia Kullback-Leibler?

28

Mira esta imagen: ingrese la descripción de la imagen aquí

Si extraemos una muestra de la densidad roja, se espera que algunos valores sean inferiores a 0.25, mientras que es imposible generar dicha muestra a partir de la distribución azul. Como consecuencia, la distancia Kullback-Leibler de la densidad roja a la densidad azul es infinita. Sin embargo, las dos curvas no son tan distintas, en algún "sentido natural".

Aquí está mi pregunta: ¿Existe una adaptación de la distancia Kullback-Leibler que permita una distancia finita entre estas dos curvas?

ocram
fuente
1
¿En qué "sentido natural" son estas curvas "no tan distintas"? ¿Cómo se relaciona esta cercanía intuitiva con alguna propiedad estadística? (Se me ocurren varias respuestas, pero estoy preguntando lo que tiene en mente.)
whuber
1
Bueno ... están bastante cerca uno del otro en el sentido de que ambos se definen en valores positivos; ambos aumentan y luego disminuyen; ambos tienen realmente la misma expectativa; y la distancia Kullback Leibler es "pequeña" si restringimos a una porción del eje x ... Pero para vincular estas nociones intuitivas a cualquier propiedad estadística, necesitaría una definición rigurosa para estas características ...
ocram

Respuestas:

18

Puede consultar el Capítulo 3 de Devroye, Gyorfi y Lugosi, A Probabilistic Theory of Pattern Recognition , Springer, 1996. Consulte, en particular, la sección sobre -divergencias.f

-Divergences puede verse como una generalización de Kullback - Leibler (o, alternativamente, KL puede verse como un caso especial de una f -Divergencia).ff

La forma general es

Df(p,q)=q(x)f(p(x)q(x))λ(dx),

donde es una medida que domina las medidas asociadas con p y q y f ( ) es una función convexa satisfacer f ( 1 ) = 0 . (Si p ( x ) y q ( x ) son densidades con respecto a la medida de Lebesgue, simplemente sustituya la notación d x por λ ( d x ) y estará listo para comenzar.)λpqf()f(1)=0p(x)q(x)dxλ(dx)

Recuperamos KL tomando . Podemos obtener la diferencia de Hellinger a través de f ( x ) = ( 1 - f(x)=xlogxy obtenemos lavariación totaloL1distancia tomandof(x)= 1f(x)=(1x)2L1. Este último daf(x)=12|x1|

DTV(p,q)=12|p(x)q(x)|dx

Tenga en cuenta que este último al menos le da una respuesta finita.

L1


f

cardenal
fuente
1
¡Muy agradable! ¡Voy a tratar de encontrar "Una teoría probabilística del reconocimiento de patrones" y entender su capítulo 3!
ocram
1
DTVL1
1
@robin, gracias por tu comentario. Sí, me doy cuenta de esto. Solo estaba tratando de evitar una constante extraña y desordenada en la exposición. Pero, estrictamente hablando, tienes razón. Lo he actualizado en consecuencia.
cardenal
3
Su anexo es la información más útil que encontré en las estadísticas. SE, hasta ahora. Todo mi más sincero agradecimiento por esto. Simplemente reproduzco aquí la referencia que usted dio: research-repository.st-andrews.ac.uk/bitstream/10023/1591/1/… Endres and Schindelin, Una nueva métrica para distribuciones de probabilidad, IEEE Trans. en Info. Tu. vol. 49, no. 3, julio de 2003, págs. 1858-1860.
Lo hizo
1
@Didier, bueno, fue más un feliz accidente que otra cosa. Nadie respondía a la otra pregunta, así que decidí tratar de descubrir cuál era la divergencia Jensen-Shannon en primer lugar. Una vez que encontré la definición, me pareció razonable conectar las dos preguntas a través de mi anexo. Me alegra que lo hayas encontrado útil. Saludos.
cardenal
19

κ(P|Q)PQPQAQ(A)=0P(A)0κ(PQ)κ(QP)

κ(PQ)=Plog(PQ).
R=12(P+Q).
RPQRPQR
η(P,Q)=κ(PR)+κ(QR).
η(P,Q)PQηη(P,Q)=η(Q,P)PQη(P,Q)=0P=Q

η(P,Q)=2log(2)+(Plog(P)+Qlog(Q)(P+Q)log(P+Q)).

PQ

η(P,Q)=min[κ(P)+κ(Q)],

Anexo 2 @cardinal comenta que también es una divergencia , para la función convexa ηf

f(x)=xlog(x)(1+x)log(1+x)+(1+x)log(2).
Hizo
fuente
2
@Marco, @Didier Piau, cabe señalar que la sugerencia de @ Didier es otro caso especial de una divergencia donde . ff(x)=xlogx(1+x)log(1+x2)
cardenal
1
@Marco, @Didier Piau, una formulación alternativa que tiene una naturaleza sugerente es y así donde . En otras palabras, es "la diferencia entre la entropía de la medida promedio y la entropía promedio de las medidas ".η(P,Q)=PlogP+QlogQ2RlogR=2H(R)(H(P)+H(Q))η(P,Q)=2(H(μ(P,Q))μ(H(P),H(Q))μ(x,y)=x+y212η(P,Q)
cardenal
3
¿No es solo la divergencia Jensen-Shannon?
Memming
Parece ser .
Lo hizo el
"donde el mínimo está por encima del conjunto de medidas de probabilidad". Me gusta esta caracterización de la divergencia Jensen-Shannon. ¿Hay alguna prueba de ello en alguna parte?
user76284
10

La distancia de Kolmogorov entre dos distribuciones y es la norma superior de sus CDF. (Esta es la mayor discrepancia vertical entre los dos gráficos de los CDF). Se utiliza en pruebas de distribución donde es una distribución hipotética y es la función de distribución empírica de un conjunto de datos.PQPQ

Es difícil caracterizar esto como una "adaptación" de la distancia KL, pero cumple con los otros requisitos de ser "natural" y finito.

Por cierto, debido a que la divergencia KL no es una verdadera "distancia", no tenemos que preocuparnos por preservar todas las propiedades axiomáticas de una distancia. Podemos mantener la propiedad de no-negatividad al tiempo que los valores finitos mediante la aplicación de cualquier transformación monotónica para algún valor finito . La tangente inversa funcionará bien, por ejemplo.R+[0,C]C

whuber
fuente
1
Gracias por su sugerencia sobre la distancia Kolmogorov. ¿Puedes hacer tu comentario sobre la transformación monotónica un poco más explícito? Thx
ocram
1
@Marco No entiendo cómo uno podría ser más explícito. ¿Te refieres a repetir lo que escribí en términos de una fórmula como o para con implica para todos ? arctan(KL(P,Q))f(KL(P,Q))f:R+[0,C]xyf(x)f(y)x,y0
whuber
1
Sí, a eso me refería :-) No estaba seguro de qué aplicar la transformación. Ahora, está claro, gracias
ocram
1
@Marco: estoy perdido. ¿Te conformas con la distancia de Kolmogorov (que siempre es finita pero no tiene nada en común con la divergencia KL)? ¿O para una transformación monótona limitada de divergencia KL (como )? En el ejemplo de su publicación (y en cualquier otro ejemplo no absolutamente continuo ), este último produce el supremum de la transformación ( si se conforma con ). En efecto, esto abandona cualquier idea de estimar una distancia entre tales medidas de probabilidad más precisamente que decir que están muy lejos (si codifica esto por o por es irrelevante). arctanπ/2arctanπ/2+
hizo
@Didier Sí, la divergencia KL transformada (cuando es simétrica, como usted describe) podría no satisfacer la desigualdad del triángulo y, por lo tanto, no sería una distancia, pero aún definiría una topología (que probablemente sería metrizable). Por lo tanto, renunciarías a poco o nada. Sigo siendo agnóstico sobre los méritos de hacer algo de esto: me parece que esta es solo una forma de ocultar las dificultades asociadas con los valores infinitos de la divergencia KL en primer lugar.
whuber
2

Sí, Bernardo y Reuda definieron algo llamado "discrepancia intrínseca" que para todos los efectos es una versión "simétrica" ​​de la divergencia KL. Tomando la divergencia KL de a como La discrepancia intrínseca viene dada por:PQκ(PQ)

δ(P,Q)min[κ(PQ),κ(QP)]

La búsqueda de discrepancias intrínsecas (o criterio de referencia bayesiano) le dará algunos artículos sobre esta medida.

En su caso, simplemente tomaría la divergencia KL que es finita.

Otra medida alternativa a KL es la distancia de Hellinger

EDITAR: aclaración, algunos comentarios planteados sugieren que la discrepancia intrínseca no será finita cuando una densidad 0 cuando la otra no lo sea. Esto no es cierto si la operación de evaluar la densidad cero se lleva a cabo como un límite o . El límite está bien definido y es igual a para una de las divergencias de KL, mientras que la otra divergerá. Para ver esta nota:Q0 P0 0

δ(P,Q)min[Plog(PQ),Qlog(QP)]

Tomando el límite como sobre una región de la integral, la segunda integral diverge y la primera integral converge a sobre esta región (suponiendo que las condiciones sean tales que uno pueda intercambiar límites e integración). Esto se debe a que . Debido a la simetría en y el resultado también es válido para .P00limz0zlog(z)=0PQQ

probabilidadislogica
fuente
1
Incluso la "discrepancia intrínseca" será infinita cuando es cero con probabilidad positiva de y viceversa, incluso si y son idénticos. PQPQ
whuber
1
Sí ... me temo que la discrepancia intrínseca no cumple el requisito. Pero gracias por la sugerencia. Cualquier otra sugerencia sería apreciada.
ocram
1
Lo hace cumplir el requisito, si se restringe el apoyo de la densidad de color azul para estar donde tiene soporte estrictamente positivo, al igual que usted tiene para el rojo (> 0)
probabilityislogic
3
@probabilityislogic: no entiendo sus últimos comentarios. Primero, demos sus nombres propios a las nociones involucradas y digamos que es absolutamente continuo con respecto a (denotado ) si, por cada medible , implica . Ahora, a pesar de sus consideraciones un tanto misterioso límite (para mí), el es finito si y sólo si o . ... / ...PQPQAQ(A)=0P(A)=0δ(P,Q)PQQP
Hizo
2
... / ... Una manera de salir del dilema que parece ser excavado en que podría ser introducir la medida del punto medio . Como y , la cantidad siempre es finita. Además si y es simétrica. Por lo tanto mide realmente una especie de "distancia" entre y . P+QPP+QQP+Qη(P,Q):=κ(P|P+Q)+κ(Q|P+Q)η(P,Q)=0P=Qηη(P,Q)PQ
Hizo