Conexión entre la métrica de Fisher y la entropía relativa

20

¿Alguien puede probar la siguiente conexión entre la métrica de información de Fisher y la entropía relativa (o divergencia KL) de una manera puramente matemática rigurosa?

D(p(,a+da)p(,a))=12gi,jdaidaj+(O(da3)
donde a=(a1,,an),da=(da1,,dan) ,
gi,j=i(logp(x;a))j(logp(x;a)) p(x;a) dx
y gi,jdaidaj:=i,jgi,jdaidaj es la convención de suma de Einstein.

Encontré lo anterior en el bonito blog de John Baez donde Vasileios Anagnostopoulos dice sobre eso en los comentarios.

Kumara
fuente
1
Estimado Kumara: Para aclarar, ayudaría a explicar mejor su notación, específicamente el significado de solyo,j . Además, creo que a su expresión le falta un factor constante de 1/ /2 delante del primer término del lado derecho de la ecuación de visualización. Tenga en cuenta que lo que Kullback mismo llamó divergencia (usando la notación J(,) ) es la versión simétrica de lo que se conoce como divergencia KL, es decir, J(pags,q)=re(pagsq)+re(qpags) . La divergencia KL se denota yo(,) en los escritos de Kullback. Esto explica el factor de 1/ /2 también. Aclamaciones.
cardenal

Respuestas:

19

En 1946, el geofísico y estadístico bayesiano Harold Jeffreys introdujo lo que hoy llamamos la divergencia Kullback-Leibler, y descubrió que para dos distribuciones que están "infinitamente cercanas" (esperemos que los chicos de Math SE no vean esto ;-) podemos escribir su divergencia Kullback-Leibler como una forma cuadrática cuyos coeficientes están dados por los elementos de la matriz de información de Fisher. Interpretó esta forma cuadrática como el elemento de longitud de una variedad riemanniana, con la información de Fisher jugando el papel de la métrica riemanniana. De esta geometrización del modelo estadístico, derivó su anterior de Jeffreys como la medida inducida naturalmente por la métrica de Riemann, y esta medida puede interpretarse como una distribución intrínsecamente uniforme en la variedad, aunque, en general, no es una medida finita.

Para escribir una prueba rigurosa, deberá detectar todas las condiciones de regularidad y cuidar el orden de los términos de error en las expansiones de Taylor. Aquí hay un breve bosquejo del argumento.

La divergencia simétrica de Kullback-Leibler entre dos densidades y se define comoFsol

re[F,sol]=(F(X)-sol(X))Iniciar sesión(F(X)sol(X))reX.

Si tenemos una familia de densidades parametrizadas por , entoncesθ=(θ1,...,θk)

D[p(θ),p(θ+Δθ)]=(p(x,θ)p(xθ+Δθ))log(p(xθ)p(xθ+Δθ))dx,
en el que . Al presentar la notación poco de álgebra simple da Usando la expansión de Taylor para el logaritmo natural, tenemos Δθ=(Δθ1,,Δθk)
Δpags(Xθ)=pags(Xθ)-pags(Xθ+Δθ),
re[pags(θ),pags(θ+Δθ)]=Δpags(Xθ)pags(Xθ)Iniciar sesión(1+Δpags(Xθ)pags(Xθ))pags(Xθ)reX.
Iniciar sesión(1+Δpags(Xθ)pags(Xθ))Δpags(Xθ)pags(Xθ),
D [ p ( y por lo tanto, Pero Por lo tanto, en el que
re[pags(θ),pags(θ+Δθ)](Δpags(Xθ)pags(Xθ))2pags(Xθ)reX.
Δpags(Xθ)pags(Xθ)1pags(Xθ)yo=1kpags(Xθ)θyoΔθyo=yo=1kIniciar sesiónpags(Xθ)θyoΔθyo.
re[pags(θ),pags(θ+Δθ)]yo,j=1ksolyojΔθyoΔθj,
solyoj=Iniciar sesiónpags(Xθ)θyoIniciar sesiónpags(Xθ)θjpags(Xθ)reX.

Este es el artículo original:

Jeffreys, H. (1946). Una forma invariable para la probabilidad previa en problemas de estimación. Proc. Royal Soc. de Londres, Serie A, 186, 453–461.

zen
fuente
1
Muchas gracias por la buena escritura. Sería bueno si puedes ayudar esto también.
Kumara
Sí, has dicho con razón. Debo salir de esta "trampa de abstracción".
Kumara
@zen Está utilizando la expansión Taylor del logaritmo bajo la integral, ¿por qué es válido?
Sus20200
1
Parece crucial que comience con la divergencia KL simétrica, a diferencia de la divergencia KL estándar. El artículo de Wikipedia no menciona la versión simétrica, por lo que posiblemente sea incorrecta. en.wikipedia.org/wiki/Kullback%E2%80%93Leibler_divergence
Surgical Commander
11

Prueba de la divergencia KL habitual (no simétrica)

La respuesta de Zen utiliza la divergencia KL simétrica, pero el resultado también es válido para la forma habitual, ya que se vuelve simétrica para distribuciones infinitamente cercanas.

Aquí hay una prueba de distribuciones discretas parametrizadas por un escalar (porque soy perezoso), pero puede reescribirse fácilmente para distribuciones continuas o un vector de parámetros:θ

= p θ log p θ - p θ log p θ = 0 - d θ p θ d

re(pagsθ,pagsθ+reθ)=pagsθIniciar sesiónpagsθ-pagsθIniciar sesiónpagsθ+reθ .
Taylor-expandiendo el último término: Suponiendo algunas regularidades, he usado los dos resultados: :pθd
=pagsθIniciar sesiónpagsθ-pagsθIniciar sesiónpagsθ= 0 0-reθpagsθrereθIniciar sesiónpagsθ= 0 0 -12reθ2pagsθre2reθ2Iniciar sesiónpagsθ=-pagsθ(rereθIniciar sesiónpagsθ)2 +O(reθ3)=12reθ2pagsθ(rereθIniciar sesiónpagsθ)2Información de Fisher+O(reθ3).
:pagsθrereθIniciar sesiónpagsθ=rereθpagsθ=rereθpagsθ=0 0,

:pagsθre2reθ2Iniciar sesiónpagsθ=pagsθrereθ(1pagsθrepagsθreθ)=pagsθ[1pagsθre2pagsθreθ-(1pagsθrepagsθreθ)2]=re2pagsθreθ2-pagsθ(1pagsθrepagsθreθ)2=re2reθ2pagsθ= 0 0-pagsθ(rereθIniciar sesiónpagsθ)2.
Abhranil Das
fuente
4

Puede encontrar una relación similar (para un parámetro unidimensional) en la ecuación (3) del siguiente documento

D. Guo (2009), Entropía relativa y función de puntuación: nuevas relaciones de información-estimación a través de la perturbación aditiva arbitraria , en Proc. Simposio internacional de IEEE sobre teoría de la información , 814–818. ( enlace estable ).

Los autores se refieren a

S. Kullback, Teoría de la información y estadística . Nueva York: Dover, 1968.

para una prueba de este resultado.

Primo Carnera
fuente
1
Una versión multivariada de la ecuación (3) de ese documento se prueba en el texto de Kullback citado en las páginas 27-28. La constante parece haberse perdido en la pregunta del OP. :)1/ /2
cardenal