Prueba de comprensión de un lema utilizado en la desigualdad de Hoeffding

11

Estoy estudiando las notas de la conferencia de Larry Wasserman sobre Estadística que usa Casella y Berger como texto principal. Estoy trabajando a través de su conjunto de notas de clase 2 y me quedé atrapado en la derivación del lema utilizado en la desigualdad de Hoeffding (pp.2-3). Estoy reproduciendo la prueba en las notas a continuación y después de la prueba señalaré dónde estoy atascado.


Lema

Suponga que y que . Entonces \ mathbb {E} (e ^ {tX}) \ le e ^ {t ^ 2 (ba) ^ 2/8} .E(X)=0aXbE(etX)et2(ba)2/8

Prueba

Como aXb , podemos escribir X como una combinación convexa de a y b , es decir, X=αb+(1α)a donde α=Xaba . Por convexidad de la función yety tenemos

etXαetb+(1α)eta=Xabaetb+bXbaeta

Tome expectativas de ambos lados y use el hecho E(X)=0 para obtener

E(etX)abaetb+bbaeta=eg(u)

donde u=t(ba) , g(u)=γu+log(1γ+γeu) y γ=a/(ba) . Tenga en cuenta que g(0)=g(0)=0 . También g(u)1/4 para todo u>0 .

Según el teorema de Taylor, hay un ε(0,u) tal que g(u)=g(0)+ug(0)+u22g(ε)=u22g(ε)u28=t2(ba)28

Por lo tanto, E(etX)eg(u)et2(ba)28 .


Podría seguir la prueba hasta

E(etX)abaetb+bbaeta=eg(u) pero no puedo entender cómo derivar .u,g(u),γ

Anand
fuente
3
Es interesante que el valor máximo de es y, por lo tanto, el resultado es efectivamente que parece demasiado familiar para surgir por pura coincidencia. Sospecho que puede haber otra forma, posiblemente más fácil, de obtener el resultado a través de un argumento probabilístico. var(X)σmax2=(ba)2/4
E[etX]eσmax2t2/2
Dilip Sarwate
@DilipSarwate Entiendo que la variación máxima se produce para una variable aleatoria uniforme . La varianza de es . ¿Puede explicar cómo obtuvo ? XU(a,b)XVar(X)=(ba)212(ba)24
Anand
Al concentrar la masa en los puntos finales ...
Elvis
@DilipSarwate Agregué algunos comentarios en la prueba, que pueden aclarar un poco por qué el peor de los casos es la varianza máxima.
Elvis
1
@DilipSarwate - Vea el lema 1 y el ejercicio 1 aquí: terrytao.wordpress.com/2010/01/03/… . Parece que hay una derivación más simple que se basa en la desigualdad de Jensen y la expansión de Taylor. Sin embargo, los detalles de esto no están claros para mí. Quizás alguien pueda darle sentido. (derivación de (9) a (10) y ejercicio 1)
Leo

Respuestas:

17

No estoy seguro de haber entendido su pregunta correctamente. Trataré de responder: intenta escribir en función de : esto es natural ya que desea un límite en .

abaetb+bbaeta
u=t(ba)eu28

Ayudado por la experiencia, sabrá que es mejor elegir escribirlo en la forma . Entonces lleva a con .eg(u)

eg(u)=abaetb+bbaeta
g(u)=log(abaetb+bbaeta)=log(eta(abaet(ba)+bba))=ta+log(γeu+(1γ))=γu+log(γeu+(1γ)),
γ=aba

¿Es ese el tipo de cosas que pedías?

Editar: algunos comentarios sobre la prueba

  1. El primer truco merece ser examinado cuidadosamente: si es una función convexa y es una variable aleatoria centrada, entonces donde es la variable discreta definida por Como consecuencia, obtienes que es la variable centrada con soporte en que tiene la varianza más alta: Tenga en cuenta que si arreglamos un ancho de soporteϕaXb
    E(ϕ(X))abaϕ(b)+bbaϕ(a)=E(ϕ(X0)),
    X0
    P(X0=a)=bbaP(X0=b)=aba.
    X0[a,b]
    Var(X)=E(X2)E(X02)=ba2ab2ba=ab.
    (ba), esto es menor que como Dilip dice en los comentarios, esto es porque ; el límite se alcanza para .(ba)24(ba)2+4ab0a=b
  2. Ahora pasa a nuestro problema. ¿Por qué es posible obtener un límite dependiendo solo de ? Intuitivamente, es solo una cuestión de reescalado de : si tiene un límite para el caso , entonces el límite general se puede obtener tomando . Ahora piense en el conjunto de variables centradas con soporte de ancho 1: no hay tanta libertad, por lo que debería existir un límite como . Otro enfoque es decir simplemente que según el lema anterior en , más generalmente , que depende solo de yu=t(ba)XE(etX)s(t)ba=1s(t(ba))s(t)

    E(ϕ(X))E(ϕ(tX))E(ϕ(tX0))uγ : si arregla y , y deja que varíe, solo hay un grado de libertad, y , , . Obtenemos Usted sólo tiene que encontrar un límite que implica solamente .u=u0=t0(b0a0)γ=γ0=a0b0a0t,a,bt=t0αa=αa0b=αa0

    abaϕ(tb)+bbaϕ(ta)=a0b0a0ϕ(tb0)+b0b0a0ϕ(a0).
    u
  3. Ahora estamos convencidos de que se puede hacer, ¡debe ser mucho más fácil! Para empezar , no necesariamente piensas en . El punto es que debes escribir todo en función de y . Primero tenga en cuenta que , , y . Entonces Ahora estamos en el caso particular ... I Creo que puedes terminar.guγ

    γ=aba1γ=bbaat=γubt=(1γ)u

    E(ϕ(tX))abaϕ(tb)+bbaϕ(ta)=γϕ((1γ)u)+(1γ)ϕ(γu)


    ϕ=exp

Espero haberlo aclarado un poco.

Elvis
fuente
eso es exactamente lo que estaba buscando. Muchas gracias.
Anand
1
@Y sé que es un consejo difícil de seguir, sin embargo, creo que no deberías comenzar centrándote en los detalles técnicos, sino más bien tratar de entender por qué puede existir tal límite ... entonces la prueba debería parecer más fácil. Traté de mostrarle el por qué en la segunda parte, agregué esta mañana (necesita dormir en una pregunta como esta, al menos lo necesito). Creo que es terrible cómo este tipo de intuiciones no aparece en la mayoría de los libros de texto ... incluso si obtienes la parte técnica, siempre y cuando no tengas las ideas, todo parece mágico. ¡Gracias y CrossV por darme la oportunidad de pensar en esto en detalle!
Elvis
1
¡Guauu! +1 para la edición. Gracias. Pero no sería bueno si fuera posible obtener algo como
E[etX]eE[t2X2/2]=e(t2/2)E[X2]=e(t2/2)var(X)et2σmax2/2?
Dilip Sarwate
@Elvis Gracias por el consejo y por tomarse el tiempo para escribir la parte intuitiva. ¡Necesito pasar un tiempo para entender esto!
Anand
1
@Elvis Tomando en cuenta la intuición, quiero aclarar mi comprensión. Para obtener límites más agudos, uno necesita momentos más altos. Markov usa el primer momento, Chebyshev el segundo momento y el Hoeffding usa mgf. ¿Es esto correcto? Si alguien puede ampliar y aclarar esta parte, sería genial.
Anand