Estoy comparando dos distribuciones con la divergencia KL que me devuelve un número no estandarizado que, según lo que leí sobre esta medida, es la cantidad de información que se requiere para transformar una hipótesis en la otra. Tengo dos preguntas:
a) ¿Hay alguna manera de cuantificar una divergencia KL para que tenga una interpretación más significativa, por ejemplo, como un tamaño de efecto o un R ^ 2? ¿Alguna forma de estandarización?
b) En R, cuando se usa KLdiv (paquete flexmix), se puede establecer el valor 'esp' (estándar esp = 1e-4) que establece todos los puntos más pequeños que esp en algún estándar para proporcionar estabilidad numérica. He estado jugando con diferentes valores esp y, para mi conjunto de datos, obtengo una divergencia KL cada vez más grande cuanto menor es el número que elijo. Que esta pasando? Esperaría que cuanto más pequeño sea el esp, más confiables serán los resultados ya que permiten que más 'valores reales' se conviertan en parte de la estadística. ¿No? Tengo que cambiar el esp ya que de lo contrario no calcula la estadística, sino que simplemente aparece como NA en la tabla de resultados ...
KL tiene un significado profundo cuando visualiza un conjunto de dentaduras como una variedad dentro del tensor métrico de pescador, da la distancia geodésica entre dos distribuciones "cercanas". Formalmente:
Las siguientes líneas están aquí para explicar con detalles lo que se entiende por estas fórmulas matemáticas.
Definición de la métrica de Fisher.
Considere una familia parametrizada de distribuciones de probabilidad (dada por las densidades en R n ), donde x es una variable aleatoria y theta es un parámetro en R p . Todos pueden saber que la matriz de información del pescador F = ( F i j ) esD=(f(x,θ)) Rn x Rp F=(Fij)
Con esta notación es una variedad riemanniana y F ( θ ) es un tensor métrico riemanniano. (El interés de esta métrica viene dado por el teorema del límite inferior de Cramer Rao)D F(θ)
Puedes decir ... OK abstracción matemática pero ¿dónde está KL?
No es abstracción matemática, si realmente puede imaginar su densidad parametrizada como una curva (en lugar de un subconjunto de un espacio de dimensión infinita) y F 11 está conectado a la curvatura de esa curva ... (vea el seminal papel de Bradley Efronhttp://projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aos/1176343282)p=1 F11
La respuesta geométrica a parte del punto a / en su pregunta: la distancia al cuadrado entre dos distribuciones (cercanas) p ( x , θ ) y p (ds2 p(x,θ) en la variedad (piense en la distancia geodésica en la tierra de dos puntos que están cerca, está relacionada con la curvatura de la tierra) viene dada por la forma cuadrática:p(x,θ+dθ)
y se sabe que es el doble de la divergencia Kullback Leibler:
Si desea obtener más información al respecto, le sugiero leer el documento de Amari http://projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aos/1176345779 (Creo que también hay un libro de Amari sobre geometría riemanniana en estadística pero no recuerdo el nombre)
fuente
La divergencia KL (p, q) entre las distribuciones p (.) Y q (.) Tiene una interpretación teórica de la información intuitiva que puede resultarle útil.
Supongamos que observamos los datos x generados por alguna distribución de probabilidad p (.). Un límite inferior en la longitud de código promedio en bits requeridos para indicar los datos generados por p (.) Viene dado por la entropía de p (.).
Ahora, como no conocemos p (.) Elegimos otra distribución, digamos, q (.) Para codificar (o describir, indicar) los datos. La longitud de código promedio de los datos generados por p (.) Y codificados usando q (.) Será necesariamente más larga que si la distribución verdadera p (.) Se usara para la codificación. La divergencia KL nos informa sobre las ineficiencias de este código alternativo. En otras palabras, la divergencia KL entre p (.) Y q (.) Es el número promedio de bits adicionales requeridos para codificar datos generados por p (.) Usando la distribución de codificación q (.). La divergencia KL es no negativa e igual a cero si la distribución de generación de datos real se usa para codificar los datos.
fuente
Para la parte (b) de su pregunta, es posible que se encuentre con el problema de que una de sus distribuciones tiene densidad en una región donde la otra no.
Esto diverge si existe unyo dónde pagyo> 0 y qyo= 0 . El épsilon numérico en la implementación de R "lo salva" de este problema; pero significa que el valor resultante depende de este parámetro (técnicamenteqyo= 0 no es necesario, solo eso qyo es menor que el épsilon numérico).
fuente