Tomando la expectativa de la serie Taylor (especialmente el resto)

43

Mi pregunta se refiere a tratar de justificar un método ampliamente utilizado, es decir, tomar el valor esperado de la serie Taylor. Supongamos que tenemos una variable aleatoria $X$ con media positiva $\mu$ y varianza $\sigma^2$ . Además, tenemos una función, por ejemplo, $\log(x)$ .

Al hacer la expansión de Taylor de $\log X$ alrededor de la media, obtenemos

\log X = \log μ + \frac{X - μ}{μ} - \frac{1}{2} \frac{(X - μ)^{2}}{μ^{2}} + \frac{1}{3} \frac{(X - μ)^{3}}{ξ_{X}^{3}},

$\log X = \log\mu + \frac{X - \mu}{\mu} - \frac12 \frac{(X-\mu)^2}{\mu^2} + \frac13 \frac{(X - \mu)^3}{\xi_X^3},$ donde, como siempre,

ξ_{X}

$\xi_X$ es st

| ξ_{X} - μ | < | X - μ |

$|\xi_X - \mu| < |X - \mu|$ .

Si tomamos una expectativa, obtendremos una ecuación aproximada a la que las personas generalmente se refieren como algo aparente (vea el signo $\approx$ en la primera ecuación aquí) :

E \log X \approx \log μ - \frac{1}{2} \frac{σ^{2}}{μ^{2}}

$\mathbb{E}\log X \approx \log \mu - \frac12 \frac{\sigma^2}{\mu^2}$

PREGUNTA : Estoy interesado en cómo demostrar que el valor esperado del término restante es realmente insignificante, es decir,

E [\frac{(X - μ)^{3}}{ξ_{X}^{3}}] = o (σ^{2})

$\mathbb{E}\left[\frac{(X - \mu)^3}{\xi_X^3}\right] = o(\sigma^2)$ (o, en otras palabras,

E [o (X - μ)^{2}] = o (E [(X - μ)^{2}])

$\mathbb{E}\bigl[o(X-\mu)^2\bigr] = o\bigl(\mathbb{E}\bigl[(X-\mu)^2\bigr]\bigr)$ ).

Lo que intenté hacer : suponiendo que $\sigma^2 \to 0$ (que, a su vez, significa $X \to \mu$ en $\mathbb{P}$ ), traté de dividir la integral en dos, rodeando $\mu$ con algo de $\varepsilon$ -vicinidad $N_\varepsilon$ :

\int_{R} p (x) \frac{(x - μ)^{3}}{ξ_{x}^{3}} d x = \int_{x \in N_{ε}} \dots d x + \int_{x \notin N_{ε}} \dots d x

$\int_\mathbb{R} p(x)\frac{(x-\mu)^3}{\xi_x^3} \,dx = \int_{x \in N_\varepsilon} \ldots dx + \int_{x \notin N_\varepsilon} \ldots dx$

El primero puede limitarse debido al hecho de que y, por lo tanto, no molesta. Pero con el segundo tenemos dos hechos concurrentes: por un lado (como ). Pero, por otro lado, no sabemos qué hacer con . $0 \notin N_\varepsilon$ $1/\xi^3$

P (| X - μ | > ε) \to 0

$\mathbb{P}(|X - \mu| > \varepsilon) \to 0$

σ^{2} \to 0

$\sigma^2 \to 0$

1 / ξ^{3}

$1/\xi^3$

Otra posibilidad podría ser intentar usar el lema de Fatou, pero no puedo entender cómo.

Agradecería cualquier ayuda o sugerencia. Me doy cuenta de que esta es una pregunta muy técnica, pero necesito analizarla para confiar en este método de "expectativa de Taylor". ¡Gracias!

PD: Lo comprobé aquí , pero parece que es otra cosa.

self-study mathematical-statistics expected-value agronskiy
fuente

¿Por qué hay un signo menos frente al tercer término de la expansión Taylor? ¡También por qué en el cuarto término hay

y no

? ¿Qué me estoy perdiendo?

3

$3$

3!

$3!$

Alecos Papadopoulos

@Alecos: mirada Justo en el

º derivado del

. Eso responderá a sus dos preguntas.

n

$n$

\log x

$\log x$

cardenal

44

(+1) Este problema surgió recientemente en las discusiones de dos preguntas relacionadas con la búsqueda de los momentos de

. Vale la pena tener cuidado adicional con tales asuntos. :-)

X^{- 1}

$X^{-1}$

cardenal

1

La aproximación de primer orden en realidad puede ser mejor en algunos casos, debido al teorema del valor medio. No estoy seguro si el teorema del valor medio ayudaría en el caso general.

probabilityislogic

1

Yo hubiera pensado que el teorema de convergencia dominada podría ser útil en este caso, como la ecuación

Es un intercambio de límites y la integración.

E (o (. .)) = o (E (. .))

$E(o(..))=o(E(..))$

probabilityislogic

32

Tienes razón en ser escéptico de este enfoque. El método de la serie Taylor no funciona en general, aunque la heurística contiene un núcleo de verdad. Para resumir la discusión técnica a continuación,

Una fuerte concentración implica que el método de la serie Taylor funciona para funciones agradables
Las cosas pueden y van a ir dramáticamente mal para distribuciones de cola pesada o funciones no tan agradables

Como lo indica la respuesta de Alecos, esto sugiere que el método de la serie Taylor debería desecharse si sus datos pueden tener colas pesadas. (Profesionales de finanzas, te estoy mirando).

Como señaló Elvis, el problema clave es que la variación no controla los momentos más altos . Para ver por qué, simplifiquemos su pregunta lo más posible para llegar a la idea principal.

Supongamos que tenemos una secuencia de variables aleatorias con como . $X_n$ $\sigma(X_n)\to 0$ $n\to \infty$

P: ¿Podemos garantizar que como $\mathbb{E}[|X_n-\mu|^3] = o(\sigma^2(X_n))$ $n\to \infty?$

Como hay variables aleatorias con segundos momentos finitos e terceros momentos infinitos, la respuesta es rotundamente no . Por lo tanto, en general, el método de la serie Taylor falla incluso para polinomios de tercer grado . La repetición de este argumento muestra que no puede esperar que el método de la serie Taylor proporcione resultados precisos, incluso para polinomios, a menos que todos los momentos de su variable aleatoria estén bien controlados.

Entonces, ¿qué vamos a hacer? Ciertamente, el método funciona para variables aleatorias limitadas cuyo soporte converge a un punto, pero esta clase es demasiado pequeña para ser interesante. Supongamos, en cambio, que la secuencia proviene de una familia altamente concentrada que satisface (digamos) $X_n$

\begin{matrix} (1) & P {| X_{n} - μ | > t} \leq e^{- C n t^{2}} \end{matrix}

$\mathbb{P}\left\{ |X_n-\mu|> t\right\} \le \mathrm{e}^{- C n t^2} \tag{1}$

para cada y algo de . Tales variables aleatorias son sorprendentemente comunes. Por ejemplo, cuando es la media empírica $t>0$ $C>0$ $X_n$

X_{n} := \frac{1}{n} \sum_{i = 1}^{n} Y_{i}

$X_n := \frac{1}{n} \sum_{i=1}^n Y_i$

$Y_i$ $X_n$ $p$

E [| X_{n} - μ |^{p}] \leq {(\frac{p}{2 C n})}^{p / 2} .

$\mathbb{E}[|X_n-\mu|^p] \le \left(\frac{p}{2 C n}\right)^{p/2}.$

$f$ $\mathcal{E}_m$ $m$

E_{m} := | E [f (X_{n})] - \sum_{p = 0}^{m} \frac{f^{(p)} (μ)}{p!} E (X_{n} - μ)^{p} | \leq \frac{1}{(2 C n)^{(m + 1) / 2}} \sum_{p = m + 1}^{\infty} | f^{(p)} (μ) | \frac{p^{p / 2}}{p!}

$\mathcal{E}_m:=\left|\mathbb{E}[f(X_n)] - \sum_{p=0}^m \frac{f^{(p)}(\mu)}{p!} \mathbb{E}(X_n-\mu)^p\right|\le \tfrac{1}{(2 C n)^{(m+1)/2}} \sum_{p=m+1}^\infty |f^{(p)}(\mu)| \frac{p^{p/2}}{p!}$

$n>C/2$ $p! \approx p^{p-1/2}$

\begin{matrix} (2) & E_{m} = O (n^{- (m + 1) / 2}) as n \to \infty whenever \sum_{p = 0}^{\infty} p^{(1 - p) / 2} | f^{(p)} (μ) | < \infty . \end{matrix}

$\mathcal{E}_m = O(n^{-(m+1)/2}) \text{ as } n\to \infty\quad \text{whenever} \quad \sum_{p=0}^\infty p^{(1-p)/2 }|f^{(p)}(\mu)| < \infty \tag{2}.$

$X_n$ $f$ $f^{(p)}(\mu)/p! = O(p^{-p/2})$ $f$ $X_n$

$f$ $f(x)=1/x$ $X_n$ $\mathrm{Normal}(1,1/n)$ $X_n$ $\mathbb{E}[f(X_n)] = \infty$ $n$ . En otras palabras, tenemos una variable aleatoria acotada altamente concentrada, y aún así el método de la serie Taylor falla cuando la función tiene una sola singularidad.

Algunas palabras sobre rigor. Me parece más agradable presentar la condición que aparece en (2) como derivada en lugar de una deus ex machina que se requiere en un riguroso teorema / formato de prueba. Para que el argumento sea completamente riguroso, primero tenga en cuenta que el lado derecho en (2) implica que

E [| f (X_{n}) |] \leq \sum_{i = 0}^{\infty} \frac{| f^{(p)} (μ) |}{p!} E [| X_{n} - μ |^{p}] < \infty

$\mathbb{E}[|f(X_n)|] \le \sum_{i=0}^\infty \frac{|f^{(p)}(\mu)|}{p!} \mathbb{E}[|X_n-\mu|^p]< \infty$

por la tasa de crecimiento de los momentos subgaussianos desde arriba. Por lo tanto, el teorema de Fubini proporciona

E [f (X_{n})] = \sum_{i = 0}^{\infty} \frac{f^{(p)} (μ)}{p!} E [(X_{n} - μ)^{p}]

$\mathbb{E}[f(X_n)] = \sum_{i=0}^\infty \frac{f^{(p)}(\mu)}{p!} \mathbb{E}[(X_n-\mu)^p]$

El resto de la prueba procede como se indicó anteriormente.

Mike McCoy
fuente

1

X

$X$

\log (X)

$\log(X)$

\log

$\log$

X

$X$

2

X

$X$

0 < X < 2 μ

$0<X<2 \mu$

2

X

$X$

(1, 1)

$(1,1)$

(0, 2)

$(0,2)$

μ = 1

$\mu=1$

f (x) = 1 / x = 1 / (1 - (1 - x))

$f(x)=1/x = 1/(1-(1-x))$

1

$1$

(0, 2 μ)

$(0,2\mu)$

E [f (X)]

$\mathbb{E}[f(X)]$

1

f (x) = 1 / x

$f(x)=1/x$

| f^{(p)} (μ) | = p! / μ^{p}

$|f^{(p)}(\mu)|=p!/\mu^p$

(2) = \sum p! p^{(1 - p / 2)} μ^{p} \to \infty

$\text{(2)}=\sum p! p^{(1-p/2)} \mu^p \to \infty$

μ > 0

$\mu>0$

\log (p! f^{(p)} (μ)) / p \to - \infty

$\log (p! f^{(p)}(\mu) )/ p \to -\infty$

f

$f$

1

[0 + ε, 2 μ - ε]

$[0+\varepsilon, 2 \mu-\varepsilon]$

ε > 0

$\varepsilon > 0$

E_{m}

$\mathcal{E}_m$

10

Aunque mi respuesta en ninguna parte se acercará al nivel de sofisticación matemática de las otras respuestas, decidí publicarla porque creo que tiene algo que aportar, aunque el resultado será "negativo", como dicen.

En un tono ligero, diría que la OP es "reacia al riesgo" (como la mayoría de las personas, así como la ciencia misma), porque la OP requiere una condición suficiente para que la aproximación de expansión de la serie Taylor de segundo orden sea " aceptable". Pero es no una condición necesaria.

En primer lugar, un requisito previo necesario pero no suficiente para que el valor esperado del Remanente sea de orden inferior a la varianza del rv, como lo requiere el OP, es que la serie converja en primer lugar. ¿Deberíamos asumir la convergencia? No.

La expresión general que examinamos es

E [g (Y)] = \int_{- \infty}^{\infty} f_{Y} (y) [\sum_{i = 0}^{\infty} g^{(i)} (μ) \frac{(y - μ)^{i}}{i!}] d y [1]

$E\Big[g(Y)\Big] = \int_{-\infty}^{\infty}f_Y(y)\Big[\sum_{i=0}^{\infty}g^{(i)}(\mu)\frac{(y-\mu)^i}{i!}\Big]dy \qquad [1]$

Como Loistl (1976) afirma, haciendo referencia al libro "Cálculo y estadística" de Gemignani (1978, p. 170), una condición para la convergencia de la suma infinita es (una aplicación de la prueba de relación para convergencia)

y - μ < | y - μ | < lim_{i \to \infty} | (\frac{g^{(i)} (μ)}{g^{(i + 1)} (μ)} (i + 1)) | [2]

$y-\mu < |y-\mu|<\lim_{i\rightarrow \infty}\left | \left(\frac {g^{(i)}(\mu)}{g^{(i+1)}(\mu)}(i+1)\right)\right| \qquad [2]$

$\mu$

$g()$ $y-\mu$ $0 <y$ $[2]$

y - μ < μ \Rightarrow 0 < y < 2 μ

$y-\mu < \mu \Rightarrow 0 < y < 2\mu$

Esto significa que si nuestra variable varía fuera de este rango, la expansión de Taylor que tiene como centro de expansión la media de la variable divergerá.

Entonces: para algunas formas funcionales, el valor de una función en algún punto de su dominio es igual a su expansión de Taylor infinita, sin importar qué tan lejos esté este punto del centro de expansión. Para otras formas funcionales (logaritmo incluido), el punto de interés debería estar algo "cerca" del centro de expansión elegido. En el caso de que tengamos un rv, esto se traduce en una restricción en el soporte teórico de la variable (o un examen de su rango observado empíricamente).

Loitl, utilizando ejemplos numéricos, mostró también que aumentar el orden de la expansión antes del truncamiento podría empeorar las cosas para la precisión de la aproximación. Debemos notar que empíricamente, las series temporales de variables observadas en el sector financiero exhiben una variabilidad mayor que la requerida por la desigualdad. Entonces, Loitl abogó por que la metodología de aproximación de la serie Taylor se descartara por completo, con respecto a la Teoría de elección de cartera.

El repunte se produjo 18 años después de Hlawitschka (1994) . La valiosa información y el resultado aquí fue, y cito

... aunque una serie puede finalmente converger, poco se puede decir sobre cualquiera de sus series parciales; La convergencia de una serie no implica que los términos disminuyan inmediatamente de tamaño o que cualquier término en particular sea lo suficientemente pequeño como para ser ignorado. De hecho, es posible, como se demuestra aquí, que una serie parezca divergir antes de finalmente converger en el límite. Las aproximaciones de calidad de momento a la utilidad esperada que se basan en los primeros términos de una serie de Taylor, por lo tanto, no pueden determinarse por las propiedades de convergencia de la serie infinita. Este es un tema empírico, y empíricamente, las aproximaciones de dos momentos a las funciones de utilidad estudiadas aquí funcionan bien para la tarea de selección de cartera. Hlawitschka (1994)

$E(g(Y)$ que siempre dio resultados cuantitativos que estaban lo suficientemente cerca de este valor exacto (ver su tabla A1 en la p. 718).

Entonces, ¿dónde nos deja eso? En el limbo, diría. Parece que tanto en la teoría como en la empírica, la aceptabilidad de la aproximación de Taylor de segundo orden depende de manera crítica de muchos aspectos diferentes del fenómeno específico en estudio y de la metodología científica empleada. Depende de los supuestos teóricos, de las formas funcionales utilizadas. sobre la variabilidad observada de la serie ...

Pero terminemos esto positivamente: hoy en día, la energía de la computadora sustituye a muchas cosas. Entonces podríamos simular y probar la validez de la aproximación de segundo orden, para una amplia gama de valores de la variable a bajo costo, ya sea que trabajemos en un problema teórico o empírico.

Alecos Papadopoulos
fuente

8

No es una respuesta real, sino un ejemplo para mostrar que las cosas no son tan agradables y que se necesitan hipótesis adicionales para que este resultado sea cierto.

$X_n$ $U\left( \left[ -{1\over n} ; {1\over n} \right] \right)$ $\mathcal N({n \over n-1}, {1\over n})$ $1\over n$ $1 -{1\over n} = {n-1 \over n}$ $E(X_n) = 1$ $0$ $n$

E (X_{n}^{2}) = \frac{1}{3 n^{2}} \times \frac{1}{n} + ({(\frac{n}{n - 1})}^{2} + \frac{1}{n}) \times \frac{n - 1}{n},

$E\left(X_n^2\right) = {1\over 3 n^2} \times {1\over n} + \left(\left({n \over n-1}\right)^2+{1\over n}\right)\times{n-1 \over n},$

$f(x) = 1/x$ $f(0) = 0$ $f(X_n)$

\int_{- \frac{1}{n}}^{\frac{1}{n}} \frac{1}{x} d x

$\int_{-{1\over n}}^{1\over n} {1\over x} \mathrm dx$

n

$n$

$f$ $X_n$

PD. ¿No es este ejemplo un contraejemplo a la respuesta de Nick? ¿Quién se equivoca entonces?

Elvis
fuente

1

E [X^{k}]

$E\left[X^k\right]$

k = 1, 2, 3

$k=1,2,3$

f (x)

$f(x)$

x = μ

$x=\mu$

f (x) = \frac{1}{x}

$f(x)=\frac{1}{x}$

x = 0

$x=0$

f

$f$

μ = 1

$\mu = 1$

1

Elvis, sí, necesitamos una condición global. Esencialmente, el resto tiene que comportarse bien después de ser ponderado por las colas de la distribución. Para algo similar a su ejemplo que apareció recientemente, vea aquí , aquí y aquí .

Cardenal

4

Esta no es una respuesta completa, solo una forma diferente de llegar a la aproximación de segundo orden.

f (X) = f (μ) + f^{'} (ξ_{1}) (X - μ)

$f(X)=f(\mu)+f'(\xi_1)(X-\mu)$

$X\leq\xi_1 \leq \mu$ $X \leq \mu$ $X\geq\xi_1 \geq \mu$ $X \geq \mu$ $f'(\xi_1)$

f^{'} (ξ_{1}) = f^{'} (μ) + f^{″} (ξ_{2}) (ξ_{1} - μ)

$f'(\xi_1)= f'(\mu) + f''(\xi_2)( \xi_1-\mu)$

para algunos cuando o cuando . poner esto en el primer fomula da $X\leq\xi_1\leq\xi_2\leq\mu$ $X\leq\mu$ $X\geq\xi_1\geq \xi_2 \geq\mu$ $X\geq\mu$

f (X) = f (μ) + f^{'} (μ) (X - μ) + f^{″} (ξ_{2}) (ξ_{1} - μ) (X - μ)

$f(X)=f(\mu)+ f'(\mu) (X-\mu) + f''(\xi_2)( \xi_1-\mu) (X-\mu)$

Tenga en cuenta que este resultado solo requiere que sea continua y dos veces diferenciable entre y . Sin embargo, esto solo se aplica a una fija , y cambiar significará un cambio correspondiente en . El método delta de segundo orden puede verse como una suposición global de que y en todo el rango del soporte de , o al menos sobre la región de alta probabilidad de masa. $f$ $X$ $\mu$ $X$ $X$ $\xi_i$ $\xi_1-\mu=\frac{1}{2}(X-\mu)$ $\xi_2=\mu$ $X$

probabilidadislogica
fuente

Tomando la expectativa de la serie Taylor (especialmente el resto)

Respuestas: