¿Alguien puede probar la siguiente conexión entre la métrica de información de Fisher y la entropía relativa (o divergencia KL) de una manera puramente matemática rigurosa?
donde , y es la convención de suma de Einstein.
Encontré lo anterior en el bonito blog de John Baez donde Vasileios Anagnostopoulos dice sobre eso en los comentarios.
Respuestas:
En 1946, el geofísico y estadístico bayesiano Harold Jeffreys introdujo lo que hoy llamamos la divergencia Kullback-Leibler, y descubrió que para dos distribuciones que están "infinitamente cercanas" (esperemos que los chicos de Math SE no vean esto ;-) podemos escribir su divergencia Kullback-Leibler como una forma cuadrática cuyos coeficientes están dados por los elementos de la matriz de información de Fisher. Interpretó esta forma cuadrática como el elemento de longitud de una variedad riemanniana, con la información de Fisher jugando el papel de la métrica riemanniana. De esta geometrización del modelo estadístico, derivó su anterior de Jeffreys como la medida inducida naturalmente por la métrica de Riemann, y esta medida puede interpretarse como una distribución intrínsecamente uniforme en la variedad, aunque, en general, no es una medida finita.
Para escribir una prueba rigurosa, deberá detectar todas las condiciones de regularidad y cuidar el orden de los términos de error en las expansiones de Taylor. Aquí hay un breve bosquejo del argumento.
La divergencia simétrica de Kullback-Leibler entre dos densidades y se define comof g
Si tenemos una familia de densidades parametrizadas por , entoncesθ=(θ1,…,θk)
Este es el artículo original:
Jeffreys, H. (1946). Una forma invariable para la probabilidad previa en problemas de estimación. Proc. Royal Soc. de Londres, Serie A, 186, 453–461.
fuente
Prueba de la divergencia KL habitual (no simétrica)
La respuesta de Zen utiliza la divergencia KL simétrica, pero el resultado también es válido para la forma habitual, ya que se vuelve simétrica para distribuciones infinitamente cercanas.
Aquí hay una prueba de distribuciones discretas parametrizadas por un escalar (porque soy perezoso), pero puede reescribirse fácilmente para distribuciones continuas o un vector de parámetros:θ
= ∑ p θ log p θ - ∑ p θ log p θ ⏟ = 0 - d θ ∑ p θ d
fuente
Puede encontrar una relación similar (para un parámetro unidimensional) en la ecuación (3) del siguiente documento
Los autores se refieren a
para una prueba de este resultado.
fuente