Considere la bayesiana posterior . Asintóticamente, su máximo ocurre en la estimación MLE , que simplemente maximiza la probabilidad .θ argmin θ
Todos estos conceptos (antecedentes bayesianos, maximizando la probabilidad) suenan súper principios y no son en absoluto arbitrarios. No hay un registro a la vista.
Sin embargo, MLE minimiza la divergencia KL entre la distribución real y , es decir, minimiza
Woah, ¿de dónde vienen estos registros? ¿Por qué la divergencia KL en particular?
¿Por qué, por ejemplo, minimizar una divergencia diferente no se corresponde con los conceptos súper principios y motivados de los posteriores bayesianos y maximizar la probabilidad anterior?
Parece haber algo especial sobre la divergencia KL y / o los registros en este contexto. Por supuesto, podemos lanzar nuestras manos al aire y decir que así son las matemáticas. Pero sospecho que podría haber alguna intuición o conexiones más profundas que descubrir.
fuente
Respuestas:
El uso de logaritmos en cálculos como este proviene de la teoría de la información . En el caso particular de la divergencia KL, la medida puede interpretarse como la información relativa de dos distribuciones:
dondeH( f~) es la entropía de F~ y H( f~, fθ) es la cruz-entropía del F~ y Fθ . La entropía puede considerarse como una medida de la tasa promedio de producción de una densidad (el pensamiento de entropía cruzada es un poco más complicado). Reducir al mínimo la divergencia KL para un valor fijo F~ (como en el problema que mencionas) es equivalente a minimizar la entropía cruzada, por lo que esta optimización puede ser objeto de una interpretación de información teórica.
No es posible para mí dar una buena explicación de la teoría de la información y las propiedades de las medidas de información, en una breve publicación. Sin embargo, recomendaría echar un vistazo al campo, ya que tiene conexiones cercanas con las estadísticas. Muchas medidas estadísticas que involucran integrales y sumas sobre logaritmos de densidades son combinaciones simples de medidas de información estándar utilizadas en la teoría de medidas, y en tales casos, se les puede dar interpretaciones en términos de los niveles subyacentes de información en varias densidades, etc.
fuente