Divergencia Kullback-Leibler SIN teoría de la información

23

Después de mucho arrastre de Cross Validated, todavía no siento que estoy más cerca de entender la divergencia de KL fuera del ámbito de la teoría de la información. Es bastante extraño que alguien con experiencia en matemáticas encuentre mucho más fácil entender la explicación de la teoría de la información.

Para resumir mi comprensión a partir de los antecedentes de la teoría de la información: si tenemos una variable aleatoria con un número finito de resultados, existe una codificación óptima que nos permite comunicar el resultado con otra persona con el mensaje más corto en promedio. imagen en términos de bits). La longitud esperada del mensaje que se necesitaría para comunicar el resultado viene dada por si se usa la codificación óptima. Si tuviera que usar una codificación subóptima, entonces la divergencia KL nos dice en promedio cuánto tiempo más duraría nuestro mensaje.

αpαlog2(pα)

Me gusta esta explicación, porque intuitivamente trata la asimetría de la divergencia KL. Si tenemos dos sistemas diferentes, es decir, dos monedas cargadas que se cargan de manera diferente, tendrán diferentes codificaciones óptimas. No creo de manera instintiva que usar la codificación del segundo sistema para el primero sea "igualmente malo" que usar la codificación del primer sistema para el segundo. Sin pasar por el proceso de pensamiento de cómo me convencí, ahora estoy bastante feliz de que le proporciona esta "longitud de mensaje extra esperada", cuando utiliza la codificación de para .

αpα(log2qαlog2pα)
qp

Sin embargo, la mayoría de las definiciones de divergencia KL, incluida Wikipedia, hacen la declaración (manteniendo esto en términos discretos para que pueda compararse con la interpretación de la teoría de la información que funciona mucho mejor en términos discretos, ya que los bits son discretos) que si tenemos dos probabilidades discretas distribuciones, luego KL proporciona alguna métrica de "cuán diferentes son". Todavía tengo que ver una sola explicación de cómo estos dos conceptos están relacionados. Creo recordar en su libro sobre inferencia, Dave Mackay señala que la compresión de datos y la inferencia son básicamente lo mismo, y sospecho que mi pregunta está realmente relacionada con esto.

Independientemente de si es o no, el tipo de pregunta que tengo en mente es sobre problemas de inferencia. (Manteniendo las cosas discretas), si tenemos dos muestras radiactivas, y sabemos que una de ellas es un cierto material con radiactividad conocida (esto es física dudosa, pero supongamos que el universo funciona así) y así conocemos la distribución "verdadera" de los clics radiactivos que deberíamos medir debería ser poissoniano con conocida , ¿es justo construir una distribución empírica para ambas muestras y comparar sus divergencias de KL con la distribución conocida y decir que el más bajo es más probable que sea ese material?λ

Alejándome de la física dudosa, si sé que dos muestras se extraen de la misma distribución pero sé que no se seleccionan al azar, comparar sus divergencias KL con la distribución mundial conocida me da una idea de cuán sesgadas son las muestras. , en relación con uno y otro de todos modos?

Y finalmente, si la respuesta a las preguntas anteriores es sí, ¿por qué? ¿Es posible entender estas cosas solo desde un punto de vista estadístico sin hacer ninguna conexión (posiblemente tenue) con la teoría de la información?

gazza89
fuente
1
Vea mi respuesta aquí: stats.stackexchange.com/questions/188903/… que no se refiere a la teoría de la información
kjetil b halvorsen
1
¿La divergencia KL no es puramente un concepto teórico de la información? Sé que proporciona información mutua entre un Bayesiano anterior y posterior o algo así, y recuerdo haberlo visto una vez en el contexto de las transformaciones / conjugados de Fenchel (teoría de la gran desviación), pero en cualquier caso pensé que era un concepto de información teórica. .
Chill2Macht

Respuestas:

23

Hay un enfoque puramente estadístico para la divergencia de Kullback-Leibler: tome una muestra iid de una distribución desconocida y considere el ajuste potencial por una familia de distribuciones, La probabilidad correspondiente se define como y su el logaritmo es Por lo tanto, que es la parte interesante de la divergencia Kullback-Leibler entre yp F = { p θX1,,XnpL ( θ | x 1 , , x n ) = n i = 1 p θ ( x i ) ( θ | x 1 , , x n ) = n i = 1 log p θ ( x i ) 1

F={pθ, θΘ}
L(θ|x1,,xn)=i=1npθ(xi)
(θ|x1,,xn)=i=1nlogpθ(xi)
1n(θ|x1,,xn)E[logpθ(X)]=logpθ(x)p(x)dx
pθp log { p ( x ) }
H(pθ|p)=deflog{p(x)/pθ(x)}p(x)dx
la otra parte estando allí para tener el mínimo [en ] de igual a cero.θ H ( p θ | p )
log{p(x)}p(x)dx
θH(pθ|p)

Un libro que conecta la divergencia, la teoría de la información y la inferencia estadística es la estimación óptima de parámetros de Rissanen , que revisé aquí .

Xi'an
fuente
¿Alguna posibilidad de ver un ejemplo numérico de esto?
Paul Uszak
Bueno, quiero decir ver algunos números reales. La teoría es linda pero el mundo funciona con números. No hay ejemplos de divergencia de KL que utilicen números reales, por lo que llego a la conclusión de que es una teoría sin aplicación posible. El OP discutió la longitud de los mensajes en bits y la compresión de datos. Me refería a cualquier ejemplo que tuviera varios bits ...
Paul Uszak
2
@PaulUszak: si te digo que la distancia Kullaback-Leibler entre una distribución N (0,1) y una distribución N (1,1) es 1/2, ¿cómo ayuda esto?
Xi'an
2
@ Xi'an: ¿Debe haber alguna conexión entre ese número 1/2 y la potencia de la prueba de razón de probabilidad correspondiente?
kjetil b halvorsen
77
+1 Re el hilo del comentario: la mente se aturde ante la idea de que cualquier concepto que no pueda reducirse a un "número de bits" sea inútil.
whuber
8

Aquí hay una interpretación estadística de la divergencia Kullback-Leibler, tomada libremente de IJ Good ( Peso de la evidencia: Una breve encuesta , Bayesian Statistics 2, 1985).

El peso de la evidencia.

Suponga que observa puntos de datos que tiene razones para creer que son muestras independientes de alguna distribución desconocida que tiene una densidad . En el caso más simple, tiene dos hipótesis y sobre lo que es , digamos y . Por lo tanto, ha modelado lo desconocido como uno de o .x1,x2,,xnf0H1H2f0H1={f1}H2={f2}f0f1f2

El peso de la evidencia de la muestra para contra se define como Es una cantidad fácil de interpretar, especialmente dada una previa en las hipótesis y . De hecho, en ese caso, las probabilidades de registro posteriores son más las probabilidades de registro anteriores: Esta cantidad también tiene una serie de propiedades convenientes, como la aditividad para muestras independientes: x=(x1,,xn)H1H2

W(x)=logf1(x)f2(x).
PH0H1W
logP(H0|x)P(H1|x)=W(x)+logP(H0)P(H1).
W(x1,,xn)=W(x1)++W(xn).
Good proporciona una justificación adicional para el uso del peso de la evidencia, y también es referido por Kullback y Leibler (en el documento que introdujo la divergencia KL) como "la información en para la discriminación entre y ".W(x)xH1H2

En resumen, dada una muestra , el peso de la evidencia es un número concreto destinado a ayudarlo a comprender cuánta evidencia tiene a mano. Algunas personas incluso usan la regla general, como " es una fuerte evidencia" (no te animo a usar estas tablas a ciegas).xW(x)W(x)>2

La divergencia Kullback-Leibler

Ahora, la divergencia Kullback-Leibler entre y es el peso esperado de evidencia en una muestra . Es decir, f1f2xf1

KL(f1,f2)=Exf1W(x)=f1logf1f2.

Deberíamos esperar intuitivamente que una muestra proporcione evidencia positiva a favor de contra , y esto de hecho se refleja a través de la desigualdad xf1H1={f1}H2

Exf1W(x)0.
Olivier
fuente
1

Todavía tengo que ver una sola explicación de cómo estos dos conceptos están relacionados.

No sé mucho acerca de la teoría de la información, pero así es como lo pienso: cuando escucho a una persona de la teoría de la información decir "longitud del mensaje", mi cerebro dice "sorpresa". La sorpresa es 1.) aleatoria y 2.) subjetiva.

Por 1.) quiero decir que "sorpresa" es solo una transformación de su variable aleatoria , usando alguna distribución . La sorpresa se define como , y esta es la definición de si tiene o no una variable aleatoria discreta.Xq(X)logq(X)

La sorpresa es una variable aleatoria, por lo que eventualmente queremos tener la expectativa de convertirla en un solo número. Por 2), cuando digo "subjetiva", quiero decir que usted puede usar cualquier distribución que desee ( ), para transformar . Sin embargo, la expectativa siempre se tomará con respecto a la distribución "verdadera", . Estos pueden o no ser iguales. Si transforma con la verdadera , tiene , eso es entropía. Si alguna otra distribución no es igual a , obtienes , y eso es entropía cruzada. Observe cómo si usa la distribución incorrecta, siempre tiene una mayor sorpresa esperada.qXppEp[logp(X)]qpEp[logq(X)]

En lugar de pensar en "cuán diferentes son", pienso en el "aumento de la sorpresa esperada por usar la distribución incorrecta". Todo esto es de las propiedades del logaritmo.

Ep[log(p(X)q(X))]=Ep[logq(X)]Ep[logp(X)]0.

Editar

Respuesta a: "¿Puede explicar cómo es una medida de" sorpresa "? Esta cantidad por sí sola parece no tener sentido, ya que ni siquiera es invariante bajo las transformaciones lineales del espacio muestral (supongo que es un pdf) "log(q(x))q

Por un lado, piense en qué asigna los valores de a. Si tiene una que asigna un cierto valor a , entonces . Para variables aleatorias discretas, las realizaciones con probabilidad tienen "sorpresa" .Xqx0log(0)=10

En segundo lugar, es inyectivo, por lo que no hay forma de que los valores más raros obtengan menos sorpresa que los menos raros.log

Para variables aleatorias continuas, un coincidirá con una sorpresa negativa. Supongo que esto es un inconveniente.q(x)>1

Olivier parece estar insinuando una propiedad que su cantidad de "peso de evidencia" tiene que la mía no tiene, lo que él llama invariancia bajo transformaciones lineales (admito que no entiendo totalmente lo que quiere decir con espacio muestral). Presumiblemente está hablando de si , entoncessiempre que sea ​​continuo. Claramente debido al jacobiano.XqX(x)Y=aX+bqx((yb)/a)|1/a|XlogqX(X)logqY(Y)

Sin embargo, no veo cómo esto hace que la cantidad "no tenga sentido". De hecho, me cuesta entender por qué la invariancia es una propiedad deseable en este caso. La escala es probablemente importante. Anteriormente, en un comentario, mencioné el ejemplo de varianza, en el que la variable aleatoria de la que estamos esperando es . Podríamos interpretar esto como "extrema". Esta cantidad también adolece de falta de invariancia, pero no deja sin sentido la intuición de las personas sobre qué es la variación.(XEX)2

Edición 2: parece que no soy el único que piensa en esto como "sorpresa". Desde aquí :

La información residual en los datos condicional en puede definirse (hasta una constante multiplicativa) como (Kullback y Leibler, 1951; Burnham y Anderson, 1998) y puede interpretarse como una medida de "sorpresa" (Good, 1956), pena logarítmica (Bernardo, 1979) o incertidumbre.yθ2log{p(yθ)}

Taylor
fuente
1
¿Puede explicar cómo es una medida de "sorpresa"? Esta cantidad por sí sola parece no tener sentido, ya que ni siquiera es invariable bajo transformaciones lineales del espacio muestral (supongo que es un pdf). qlog(q(x))q
Olivier
1
Sea la transformación , . Como es invertible, observar es, para mí, lo mismo que observar : puedo transformar fácilmente uno en el otro. ¿Por qué debería estar más sorprendido al observar que al observar ? (si ) La invarianza bajo transformaciones invertibles es necesaria para evitar esta contradicción. T ( X ) = a X a 0 T T ( x ) x T ( x ) x - log q T ( X ) ( T ( x ) ) > - log q X ( x )TT(X)=aXa0TT(x)xT(x)xlogqT(X)(T(x))>logqX(x)
Olivier
@ Olivier sí, todo esto ya estaba cubierto en mi edición. No veo una contradicción. Considere la varianza, donde toma la expectativa de la transformación . Podría considerar esta cantidad aleatoria como "extrema". Pero no me ves quejándome por la falta de invariancia(XE[X])2
Taylor