¿Cuándo preferir la función generadora de momentos a la función característica?

Sea un espacio de probabilidad, y sea un vector aleatorio. Sea la distribución de , una medida de Borel en . $(\Omega, \mathcal{F}, P)$ $X : \Omega \to \mathbb{R}^n$ $P_X = X_* P$ $X$ $\mathbb{R}^n$

La función característica de es la función definida para (la variable aleatoria está delimitada en para todo ). Esta es la transformación de Fourier de . $X$ $φ_{X} (t) = E [e^{i t \cdot X}] = \int_{Ω} e^{i t \cdot X} d P,$ $\varphi_X(t) = E[e^{i t \cdot X}] = \int_\Omega e^{i t \cdot X} \, dP,$ $t \in \mathbb{R}^n$ $e^{i t \cdot X}$ $L^1(P)$ $t$ $P_X$
La función generadora de momento ( mgf ) de es la función definida para todas las para el cual existe la integral anterior . Esta es la transformación de Laplace de . $X$ $M_{X} (t) = E [e^{t \cdot X}] = \int_{Ω} e^{t \cdot X} d P,$ $M_X(t) = E[e^{t \cdot X}] = \int_\Omega e^{t \cdot X} \, dP,$ $t \in \mathbb{R}^n$ $P_X$

Ya podemos ver que la función característica está definida en todas partes en , pero el mgf tiene un dominio que depende de , y este dominio podría ser solo (esto sucede, por ejemplo, para una variable aleatoria distribuida por Cauchy). $\mathbb{R}^n$ $X$ $\{0\}$

A pesar de esto, las funciones características y los mgf comparten muchas propiedades, por ejemplo:

Si son independientes, entonces para todas , y para todas las para las que existen los mgf . $X_1, \ldots, X_n$ $φ_{X_{1} + \dots + X_{n}} (t) = φ_{X_{1}} (t) \dots φ_{X_{n}} (t)$ $\varphi_{X_1 + \cdots + X_n}(t) = \varphi_{X_1}(t) \cdots \varphi_{X_n}(t)$ $t$ $M_{X_{1} + \dots + X_{n}} (t) = M_{X_{1}} (t) \dots M_{X_{n}} (t)$ $M_{X_1 + \cdots + X_n}(t) = M_{X_1}(t) \cdots M_{X_n}(t)$ $t$
Dos vectores aleatorios e tienen la misma distribución si y solo si para todo . El análogo de mgf de este resultado es que si para todas las en algún vecindario de , entonces e tienen la misma distribución. $X$ $Y$ $\varphi_X(t) = \varphi_Y(t)$ $t$ $M_X(t) = M_Y(t)$ $t$ $0$ $X$ $Y$
Las funciones características y los mgf de distribuciones comunes a menudo tienen formas similares. Por ejemplo, si ( -dimensional normal con media y matriz de covarianza ), entonces y $X \sim N_n(\mu, \Sigma)$ $n$ $\mu$ $\Sigma$ $φ_{X} (t) = \exp (i μ \cdot t - \frac{1}{2} t \cdot (Σ t))$ $\varphi_X(t) = \exp\left(i \mu\cdot t - \frac{1}{2} t \cdot (\Sigma t)\right)$ $M_{X} (t) = \exp (μ \cdot t - \frac{1}{2} t \cdot (Σ t)) .$ $M_X(t) = \exp\left(\mu\cdot t - \frac{1}{2} t \cdot (\Sigma t)\right).$
Cuando se cumplen algunos supuestos leves, tanto la función característica como el mgf pueden diferenciarse para calcular momentos.
El teorema de continuidad de Lévy proporciona un criterio para determinar cuándo una secuencia de variables aleatorias converge en distribución a otra variable aleatoria utilizando la convergencia de las funciones características correspondientes. Hay un teorema correspondiente para mgf ( Curtiss 1942, Teorema 3 ).

Dado que las funciones características y los mgf a menudo se usan para el mismo propósito y el hecho de que una función característica siempre existe mientras que un mgf no siempre existe, me parece que a menudo se debería preferir trabajar con funciones características sobre los mgf.

Preguntas

¿Cuáles son algunos ejemplos en los que los mgf son más útiles que las funciones características?

¿Qué se puede hacer con un mgf que no se puede hacer con una función característica?

mgf characteristic-function Artem Mavrin
fuente

¿No es la clave de esta pregunta la palabra "introductoria" cerca del final? ¿Tendría algún sentido pedagógico introducir algo que implique el análisis de números complejos en un curso que suponga una exposición mínima (y ninguna comodidad con) el cálculo elemental y, a menudo, ni siquiera eso?

whuber

@whuber Eso fue algo en lo que también pensé, pero no quiero que mi pregunta sea sobre pedagogía, así que tal vez debería eliminar el último párrafo

Artem Mavrin el

Una respuesta parcial está aquí: stats.stackexchange.com/questions/304066/…

kjetil b halvorsen

Respuestas:

Esa es una buena pregunta, pero amplia, así que no puedo prometer que diré todo sobre eso que debería decirse. La respuesta corta es que las técnicas rivales difieren no en lo que pueden hacer, sino en lo bien que pueden hacerlo.

Las funciones características requieren precaución adicional debido al papel de los números complejos. Ni siquiera es que el estudiante necesite saber sobre números complejos; es que el cálculo involucrado tiene escollos sutiles. Por ejemplo, puedo obtener un MGF de distribución normal simplemente completando el cuadrado en una sustitución de desplazamiento variable, pero muchas fuentes pretenden descuidadamente que el enfoque utilizando funciones características es igual de fácil. No lo es, porque la famosa normalización de la integral gaussiana no dice nada sobre la integración en $ic+\mathbb{R}$ con $c\in\mathbb{R}\backslash\{ 0\}$ . Oh, aún podemos evaluar la integral si tenemos cuidado con los contornos, y de hecho hay un enfoque aún más fácil, en el que mostramos integrando por partes que un $N(0,\,1)$ función característica de la distribución $\phi (t)$ satisface $\dot{\phi}=-t\phi$ . Pero el enfoque de MGF es aún más simple, y la mayoría de las distribuciones que los estudiantes necesitan desde el principio tienen un MGF convergente en un segmento de línea (por ejemplo, Laplace) o media línea (por ejemplo, Gamma, geométrico, binomial negativo), o la totalidad de $\mathbb{R}$ (por ejemplo, Beta, binomial, Poisson, Normal). De cualquier manera, eso es suficiente para estudiar momentos.

No creo que haya nada que pueda hacer solo con el MGF, pero usa lo que es más fácil para la tarea en cuestión. Aquí hay uno para usted: ¿cuál es la forma más fácil de calcular los momentos de una distribución de Poisson? Yo diría que es usar una técnica diferente nuevamente, la función generadora de probabilidad $G(t)=\mathbb{E}t^X=\exp \lambda (t-1)$ . Entonces el símbolo de Pochhammer que cae $(X)_k$ da $\mathbb{E}(X)_k=G^{(k)}(1)=\lambda^k$ . En general, generalmente vale la pena usar el PGF para distribuciones discretas, el MGF para distribuciones continuas que están limitadas o tienen una decadencia superexponencial en las colas del PDF, y la función característica cuando realmente lo necesita.

Y dependiendo de la pregunta que esté haciendo, en su lugar puede ser prudente usar la función de generación acumulativa, ya sea definida como el logaritmo del MGF o CF. Por ejemplo, lo dejaré como un ejercicio que la definición log-MGF de acumulantes para el máximo de $n$ $\operatorname{Exp}(1)$ Iids da $\kappa_m=(m-1)!\sum_{k=1}^n k^{-m}$ , que proporciona un cálculo mucho más fácil de la media y la varianza (respectivamente $\kappa_1$ y $\kappa_2$ ) que si los hubiera escrito en términos de momentos.

JG
fuente

No entiendo tu comentario sobre "integración en

i c + R,

$ic+\mathbb R,$ "porque afaik el cf se define como una integral de una función de valor complejo en

R .

$\mathbb R.$ No tiene que ser visto como una integral de contorno. Para aquellos que se sienten incómodos con los números complejos, puede verse como un par de integrales reales de todos modos. No está claro cómo el mgf es "más simple" en ningún aspecto. De hecho, el cf es más simple en el sentido de que uno no tiene que preocuparse por la convergencia.

whuber

@whuber Lo que quiero decir es

\int_{R} \frac{1}{\sqrt{2 π}} \exp (- \frac{x^{2}}{2} + i t x) d x = \int_{- i t + R} \frac{1}{\sqrt{2 π}} \exp (- \frac{y^{2}}{2} - \frac{t^{2}}{2}) d t

$\int_{\Bbb R}\frac{1}{\sqrt{2\pi}}\exp (-\frac{x^2}{2}+itx)dx=\int_{-it+\Bbb R}\frac{1}{\sqrt{2\pi}}\exp (-\frac{y^2}{2}-\frac{t^2}{2})dt$ .

Lo sospechaba tanto. Pero, ¿no es eso solo un artefacto de cómo uno podría elegir evaluar la integral, en lugar de ser una característica inherente del cf mismo?

whuber

@whuber El problema es que muchas fuentes pretenden que la sustitución funciona tan directamente como en el caso de MGF, lo cual no es así.

¿Te importaría elaborar un poco sobre por qué no? No veo nada problemático en este caso particular; y en general, porque la integral original sobre

R

$\mathbb R$ es convergente, uno no esperaría ningún problema con sustituciones de este tipo.

whuber

Si su variable aleatoria tiene todos sus momentos, entonces el MGF existe, y generalmente es al menos tan útil como la función característica para las pruebas.

Para responder a su pregunta, cuando existe el MGF, proporciona la base para muchos cálculos de valor extremo relacionados con $X$ . El más simple de los cuales es (para $t\geq 0$ ),

P (X > r) = P (e^{t X} > e^{t r}) \leq M_{X} (t) / e^{t r} .

$P(X>r)=P(e^{tX}>e^{tr})\leq M_X(t)/e^{tr}.$

Aquí, los rhs ahora se pueden minimizar $t$ . Curiosamente, este límite es una de las pocas formas simples que conocemos para obtener estimaciones sobre eventos raros. El área general de esto es la Teoría de Grandes Desviaciones , donde uno debe hacer un montón de trabajo para obtener mejores límites (más estrictos). Un ejemplo común de esto es mirar $S_n=X_1+\cdots + X_n$ , de modo que cuando el MGF de $X_1$ existe, entonces uno puede mostrar $P(|S_n-E[X]|>nr)$ decae exponencialmente en $n$ . Esto se conoce más generalmente como Teorema de Cramer .

Aquí hay algunas notas compactas sobre esto.

Alex R.
fuente

Todo en su primer párrafo ya se menciona en la pregunta, excepto la última oración, que creo que es falsa. Por ejemplo, todos los momentos de la distribución log-normal existen, pero su mgf no está definido para ningún número real positivo. La segunda parte de su respuesta es muy útil porque destaca una aplicación de mgf que aparentemente no tiene una función característica análoga

Artem Mavrin