Si es una función convexa, la desigualdad de Jensen establece que , y mutatis mutandis cuando es cóncava. Claramente, en el peor de los casos, no puede el límite superior en términos de para una convexa , pero ¿hay un límite que vaya en esta dirección si es convexo pero "no demasiado convexo"? ¿Existe algún límite estándar que proporcione condiciones en una función convexa (y posiblemente también la distribución, si es necesario) que le permita concluir que \ textbf {E} [f (x)] \ le \ varphi (f) f (\ textbf {E} [x]) , donde \ varphi (f)¿alguna función de la curvatura / grado de convexidad de ? ¿Algo parecido a una condición de Lipschitz, tal vez?
21
Respuestas:
EDITAR: la versión original perdió un valor absoluto. ¡¡lo siento!!
Hola, Ian. Brevemente describiré dos desigualdades de muestra, una usando un límite de Lipschitz, la otra usando un límite en la segunda derivada, y luego discutiré algunas dificultades en este problema. Aunque estoy siendo redundante, dado que un enfoque que usa una derivada explica lo que sucede con más derivadas (a través de Taylor), resulta que la segunda versión de derivada es bastante buena.
Primero, con un límite de Lipschitz: simplemente reelabora la desigualdad estándar de Jensen. Se aplica el mismo truco: calcular la expansión de Taylor en el valor esperado.
Específicamente, Sea medida correspondiente μ , y establezca m : = E ( x ) . Si f tiene Lipschitz constante L , entonces por el teorema de TaylorX μ m:=E(x) f L
donde (nota que x ≤ m y x > m son posibles). Usando esto y volviendo a trabajar la prueba de Jensen (estoy paranoico y verifiqué que el estándar está en Wikipedia),z∈[m,x] x≤m X>m
Ahora, supongamos . En este caso,|f′′(x)|≤λ
y entonces
Me gustaría mencionar brevemente algunas cosas. Lo siento si son obvios.
Una es que no puedes decir simplemente "wlog " cambiando la distribución, porque estás cambiando la relación entre f y μ .E(X)=0 f μ
El siguiente es que el límite debe depender de la distribución de alguna manera. Para ver esto, imaginar que y f ( x ) = x 2 . Cualquiera sea el valor de σ , aún obtienes f ( E ( X ) ) = f ( 0 ) = 0 . Por otro lado, E ( f ( X ) ) = E ( XX∼Gaussian(0,σ2) f(x)=x2 σ f(E(X))=f(0)=0 . Por lo tanto, al cambiar σ , puede hacer que la brecha entre las dos cantidades sea arbitraria. Intuitivamente, se aleja más masa de la media y, por lo tanto, para cualquier función estrictamente convexa, E ( f ( X ) ) aumentará.E(f(X))=E(X2)=σ2 σ E(f(X))
Por último, no veo cómo obtener un límite multiplicativo como sugieres. Todo lo que he usado en esta publicación es estándar: el teorema de Taylor y los límites derivados son pan y mantequilla en los límites estadísticos, y automáticamente dan errores aditivos, no multiplicativos.
Sin embargo, lo pensaré y publicaré algo. La vaga intuición es que necesitará condiciones muy difíciles tanto en la función como en la distribución, y que el límite aditivo está realmente en el centro de la misma.
fuente
Para una idea, considere una distribución concentrada en dos valores; digamos, con probabilidades iguales de 1/2 que es igual a 1 o 3, de donde . Tomar N > > 0 y ε > 0 . Considere las funciones f para las cuales f ( 1 ) = f ( 3 ) = N ϵ y f ( E [ x ] ) = f ( 2 ) = ϵ . HaciendoE [x]=2 norte> > 0 ϵ > 0 F F( 1 ) = f( 3 ) = Nϵ F( E [ x ] ) = f( 2 ) = ϵ suficientemente pequeño y conectando f continuamente entre estos tres puntos, podemos hacer que la curvatura de f sea tan pequeña como se desee. Luegoϵ F F
, aúnE [f( x ) ] = Nϵ
.norte= Nϵ/ϵ=E[f(x)]/f(E[x])≤φ(f)
Esto muestra que debe ser arbitrariamente grande.φ(f)
fuente