En el espíritu de esta pregunta Comprensión de la prueba de un lema utilizado en la desigualdad de Hoeffding , estoy tratando de entender los pasos que conducen a la desigualdad de Hoeffding.
Lo que tiene más misterio para mí en la prueba es la parte donde se calculan los momentos exponenciales para la suma de las variables iid, después de lo cual se aplica la desigualdad de Markov.
Mi objetivo es entender: ¿por qué esta técnica da una desigualdad apretada, y es la más estricta que podemos lograr? Una explicación típica se refiere al momento que genera propiedades del exponente. Sin embargo, esto me parece demasiado vago.
Una publicación en el blog de Tao, http://terrytao.wordpress.com/2010/01/03/254a-notes-1-concentration-of-measure/#hoeff , podría contener algunas respuestas.
Con este objetivo en mente, mi pregunta es acerca de tres puntos en la publicación de Tao en los que estoy atrapado y que espero puedan dar una idea explicada una vez.
Tao deriva la siguiente desigualdad usando el k-ésimo momento Si esto es cierto para cualquier k, concluye un límite exponencial. Aquí es donde estoy perdido. P(|Sn|≥λ√
Se presenta el lema de Hoeffding: Lema 1 (lema de Hoeffding) Sea una variable escalar que toma valores en un intervalo [ a , b ] . Entonces, para cualquier t > 0 , E e t X ≤ e t E X ( 1 + O ( t 2 V a r ( X ) exp ( O ( t ( b - a ) ) ) )) . ( 9 )
En particular La prueba del Lema 1 comienza tomando expectativas sobre la expansión de taylor e t X = 1 + t X + O ( t 2 X 2 exp ( O ( t ) ) )¿Por qué la expansión puede estar limitada por ese término cuadrático? ¿Y cómo sigue la ecuación 10?Finalmente, se da un ejercicio:
Ejercicio 1 Muestra que la factor en (10) se puede reemplazar con t 2 ( b - a ) 2 / 8 , y que esto es agudo. Esto proporcionaría una prueba mucho más corta que la deEntender la prueba de un lema utilizado en la desigualdad de Hoeffding, pero no sé cómo resolver esto.
Cualquier otra intuición / explicación sobre la prueba de la desigualdad o la razón por la que no podemos derivar un límite más estricto son definitivamente bienvenidas.
Respuestas:
El uso de momentos exponenciales es un paso común en el proceso de probar la concentración de desigualdades de medida. Mi comprensión es la siguiente 1) Al usar lugar de E X , uno captura todos los momentos de X , en lugar de solo el primer momento. Por lo tanto, siempre es ventajoso vincular E e X , en lugar de vincular E X , ya que hay más información en E e XEeX EX X EeX EX EeX EeX eX=1+X+X22+X36+… X EX X
fuente