Supongamos que tenemos variables aleatorias IID con distribución . Vamos a observar una muestra de las 's de la siguiente manera: dejemos que sean variables aleatorias independientes , supongamos que todas las e ' s son independientes y definen el tamaño de la muestra . Los indican cuáles de los están en la muestra, y queremos estudiar la fracción de éxitos en la muestra definida por
Para , queremos encontrar un límite superior para que decae exponencialmente con . La desigualdad de Hoeffding no se aplica inmediatamente debido a las dependencias entre las variables.
Respuestas:
Podemos establecer una conexión con la desigualdad de Hoeffding de una manera bastante directa .
Tenga en cuenta que tenemos
Establezca para que sea iid, y mediante una aplicación directa de la desigualdad de Hoeffding (ya que y así tomar valores en un intervalo de tamaño uno).Z i E Z i = 0 P ( Z > θ + ϵ ) = P ( ∑ i Z i > n ϵ / 2 ) ≤ e - n ϵ 2 / 2Zi=(Xi−θ−ϵ)Yi+ϵ/2 Zi EZi=0 Z i ∈ [ - θ - ϵ / 2 , 1 - θ - ϵ / 2 ]
Existe una literatura relacionada rica y fascinante que se ha acumulado en los últimos años, en particular, sobre temas relacionados con la teoría de matrices aleatorias con diversas aplicaciones prácticas. Si está interesado en este tipo de cosas, le recomiendo:
Creo que la exposición es clara y proporciona una forma muy agradable de aclimatarse rápidamente a la literatura.
fuente
Detalles para atender el caso .N=0
Por alecos.
fuente
Esta respuesta sigue mutando. La versión actual no se relaciona con la discusión que tuve con @cardinal en los comentarios (aunque fue a través de esta discusión que agradecidamente me di cuenta de que el enfoque de condicionamiento no parecía conducir a ninguna parte).
Para este intento, usaré otra parte del artículo original de Hoeffding de 1963 , a saber, la sección 5 "Sumas de variables aleatorias dependientes".
Establezca
mientras establecemos if .Wi=0 ∑ni=1Yi=0
Entonces tenemos la variable
Estamos interesados en la probabilidad
Al igual que muchas otras desigualdades, Hoeffding comienza su razonamiento al señalar que y eso
Para el caso de las variables dependientes, como Hoeffding usamos el hecho de que e invocamos la desigualdad de Jensen para la función exponencial (convexa), para escribir∑ni=1Wi=1
y vinculando resultados para llegar a
Centrándonos en nuestro caso, dado que y son independientes, los valores esperados se pueden separar,Wi Xi
En nuestro caso, los son iid Bernoullis con el parámetro , y es su función generadora de momentos comunes en , . EntoncesXi θ E[ehXi] h E[ehXi]=1−θ+θeh
Minimizando el RHS con respecto a , obtenemosh
Conectándolo a la desigualdad y manipulando obtenemos
mientras
Hoeffding muestra que
Cortesía del OP (gracias, me estaba agotando un poco ...)
Entonces, finalmente, el "enfoque de variables dependientes" nos da
Comparemos esto con el límite de Cardinal, que se basa en una transformación de "independencia", . Para que nuestro límite sea más estricto, necesitamosBI
Entonces, para tenemos . Para , vuelve más que pero para muy pequeño , mientras que incluso esta pequeña "ventana" converge rápidamente a cero. Por ejemplo, para , si , entonces es más estricto. En resumen, el límite de Cardinal es más útil. B D ≤ B I n ≥ 5 B I B D ϵ n = 12 ϵ ≥ 0.008 B In≤4 BD≤BI n≥5 BI BD ϵ n=12 ϵ≥0.008 BI
COMENTARIOWi Xi Xi
Para evitar impresiones engañosas con respecto al artículo original de Hoeffding, debo mencionar que Hoeffding examina el caso de una combinación convexa determinista de variables aleatorias dependientes. Específicamente, sus son números, no variables aleatorias, mientras que cada es una suma de variables aleatorias independientes, mientras que la dependencia puede existir entre las . Luego considera varias "estadísticas U" que se pueden representar de esta manera.X i X i
fuente