Información teórica teorema del límite central

11

La forma más simple de la información teórica CLT es la siguiente:

Sea X1,X2, iid con media 0 y varianza 1 . Sea fn la densidad de la suma normalizada i=1nXinϕn D ( f nϕ ) 0 n D(fnϕ)=fnlog(fn/ϕ)dxnD(fnϕ)0n

Ciertamente, esta convergencia, en cierto sentido, es "más fuerte" que las convergencias bien establecidas en la literatura, la convergencia en la distribución y la convergencia en métrica, gracias a la desigualdad de Pinsker . Es decir, la convergencia en KL-divergencia implica convergencia en la distribución y convergencia en la distancia .(| f n - ϕ | ) 22 f n log ( f n / ϕ ) L 1L1(|fnϕ|)22fnlog(fn/ϕ)L1

Me gustaría saber dos cosas.

  1. ¿Qué tiene de bueno el resultado ?D(fnϕ)0

  2. ¿Es solo por la razón establecida en el tercer párrafo que decimos que la convergencia en KL-divergencia ( es decir , ) es más fuerte?D(fnϕ)0

NB: Hice esta pregunta hace algún tiempo en math.stackexchange donde no obtuve respuesta.

Ashok
fuente
Proporcione un enlace a la pregunta duplicada de matemáticas. SE.
cardenal
66
Su afirmación parece suponer implícitamente la existencia de una densidad (con respecto a la medida de Lebesgue). Quizás te interese este breve y encantador artículo: AR Barron (1986), Entropy and the Central Limit Theorem Ann. Probab vol 14, no. 1, 336-342. ( acceso abierto ).
cardenal
2
Ya había mirado ese papel. Él ha motivado la perspectiva teórica de la información en el segundo párrafo de la página 1. No estaba tan claro para mí en ese momento. Ahora se ve bien. Aún así, si uno puede explicar lo siguiente claramente y publicar como respuesta, sería genial. "Desde la teoría de la información, la entropía relativa es el límite superior mínimo a la redundancia (longitud de descripción promedio en exceso) del código de Shannon basado en la distribución normal cuando se describen cuantizaciones de muestras de ". He eliminado esa pregunta en matemáticas, ya que no atrajo a nadie allíf nDnfn
Ashok
@cardinal: tks por el buen papel.
Zen

Respuestas:

5

Una cosa que es genial con este teorema es que sugiere teoremas de límite en algunos entornos donde el teorema del límite central habitual no se aplica. Por ejemplo, en situaciones donde la distribución máxima de entropía es una distribución no normal, como las distribuciones en el círculo, sugiere la convergencia a una distribución uniforme.

kjetil b halvorsen
fuente
No entiendo. Como ya mencioné, la convergencia en la divergencia KL implica convergencia en la distribución, ¿sabes? Entonces, cuando se aplica CLT teórico de información, también se aplica CLT habitual. Por otra parte, la información teórica CLT también supone la varianza finita. ¿O me estoy perdiendo algo?
Ashok
2
Lo que quise decir es que el método de entropía sugiere cuál podría ser el límite en situaciones donde el límite no es una distribución normal. El límite es entonces una distribución que maximiza la entropía.
kjetil b halvorsen
3

Después de mirar alrededor, no pude encontrar ningún ejemplo de convergencia en la distribución sin convergencia en la entropía relativa, por lo que es difícil medir la "grandeza" de ese resultado.

Para mí, parece que este resultado simplemente describe la entropía relativa de los productos de convolución. A menudo se ve como una interpretación alternativa y un marco de prueba del Teorema del límite central, y no estoy seguro de que tenga una implicación directa en la teoría de la probabilidad (aunque lo tenga en la teoría de la información).

De la teoría de la información y el teorema del límite central (página 19).

La segunda ley de la termodinámica establece que la entropía termodinámica siempre aumenta con el tiempo, lo que implica algún tipo de convergencia al estado de Gibbs. La conservación de la energía significa que permanece constante durante este tiempo de evolución, por lo que podemos decir desde el principio qué estado de Gibbs será el límite. Consideraremos el Teorema del límite central de la misma manera, al mostrar que la entropía teórica de la información aumenta a su máximo a medida que tomamos circunvoluciones, lo que implica convergencia al gaussiano. Normalizar adecuadamente significa que la varianza permanece constante durante las convoluciones, por lo que podemos decir desde el principio cuál Gauss será el límite.E

gui11aume
fuente
2
Hay muchos ejemplos de convergencia en la distribución sin convergencia en la entropía relativa: cada vez que tiene una distribución discreta y se aplica el CLT. Xi
Mark Meckes
1

n D(fnϕ)0 asegura que no hay "distancia" entre la distribución de la suma de variables aleatorias y la densidad gaussiana como solo por la definición de divergencia KL, por lo que es la prueba sí mismo. Quizás entendí mal tu pregunta.n

Sobre el segundo punto que designó, se responde en su párrafo.

otro usuario
fuente
1
El CLT normal (Lindberg) establece que la media de la muestra converge en distribución a un RV normal. Eso significa que el CDF converge puntualmente a . Hay una diferencia teórica de medida sutil entre eso y el resultado del OP que no se refleja en su respuesta aquí. Φ
AdamO