¿Qué son exactamente los momentos? ¿Cómo se derivan?

19

Por lo general, se nos presenta el método de estimadores de momentos "equiparando los momentos de la población con su contraparte de muestra" hasta que hayamos estimado todos los parámetros de la población; de modo que, en el caso de una distribución normal, solo necesitaríamos el primer y segundo momento porque describen completamente esta distribución.

$E(X) = \mu \implies \sum_{i=1}^n X_i/n = \bar{X}$

$E(X^2) = \mu^2 + \sigma^2 \implies \sum_{i=1}^n X_i^2/n$

Y teóricamente podríamos calcular hasta momentos adicionales como: $n$

$E(X^r) \implies \sum_{i=1}^nX_i^r /n$

¿Cómo puedo construir la intuición de los momentos que realmente son? Sé que existen como un concepto en física y en matemáticas, pero no encuentro ninguno directamente aplicable, especialmente porque no sé cómo hacer la abstracción del concepto de masa a un punto de datos. El término parece usarse de manera específica en estadística, que difiere del uso en otras disciplinas.

¿Qué característica de mis datos determina cuántos ( ) momentos hay en general? $r$

mathematical-statistics lognormal moments method-of-moments Constantin
fuente

77

El término significa lo mismo que hace en física, cuando se aplica a la distribución de probabilidad. Vea aquí , que tiene la ecuación

μ_{n} = \int r^{n} ρ (r) d r

$\mu_n=\int r^n\,\rho(r)\,dr$ , "donde $\rho$ es la distribución de la densidad de carga, masa o cualquier cantidad que se esté considerando". Cuando la "cosa que se está considerando" es la densidad de probabilidad, tiene el momento correspondiente en probabilidad. Esos son momentos crudos (momentos sobre el origen). En comparación ... (ctd)

Glen_b -Reinstate Monica

2

Los momentos son características parametrizadas de la distribución de variables aleatorias, como los cuantiles. Los momentos son parametrizados por los números naturales y caracterizan completamente una distribución (ver función de generación de momentos ). Esto no descarta que para algunas distribuciones pueda haber una dependencia funcional perfecta entre los momentos, por lo que no siempre se requieren todos los momentos para caracterizar la distribución. (1/2)

tchakravarty

Los momentos

dependen funcionalmente de los dos primeros para la distribución normal, por lo que los dos primeros son suficientes para caracterizar la distribución, incluida la media y la varianza. (2/2)

\geq 3

$\geq 3$

tchakravarty

55

(ctd) ... los momentos en matemáticas son iguales (

), excepto acerca de

lugar de 0 (es decir, solo una forma generalizada de la física, pero dado que son lo mismo con un simple cambio de origen, un físico diría con razón "¿cómo es eso diferente?"). Estos son losmismosque en probabilidad, cuando

es una densidad. Para mí, los tres están hablando de lo mismo cuando dicen "momentos", no cosas diferentes.

μ_{n} = \int_{- \infty}^{\infty} (x - c)^{n} f (x) d x

$\mu_n=\int_{-\infty}^\infty (x - c)^n\,f(x)\,dx$

c

$c$

f

$f$

Glen_b -Reinstate Monica

3

Estoy seguro de que puede encontrar respuestas en los muchos hilos que se han publicado sobre momentos e intuición . La estadística usa los momentos exactamente de la misma manera en que se usan en física y matemáticas: es el mismo concepto con la misma definición en los tres campos.

whuber

17

Ha pasado mucho tiempo desde que tomé una clase de física, así que avíseme si algo de esto es incorrecto.

Descripción general de momentos con análogos físicos.

Tome una variable aleatoria, . El momento -ésimo de alrededor de es: Esto corresponde exactamente a la sensación física de un momento. Imagine como una colección de puntos a lo largo de la línea real con densidad dada por el pdf. Coloque un punto de apoyo debajo de esta línea en y comience a calcular los momentos relativos a ese punto de apoyo, y los cálculos corresponderán exactamente a los momentos estadísticos. $X$ $n$ $X$ $c$

{metro}_{norte} (C) = mi [(X - C)^{norte}]

$m_n(c)=E[(X-c)^n]$

X

$X$

c

$c$

La mayor parte del tiempo, el momento -ésimo de se refiere al momento alrededor de 0 (de momentos en los que se coloca el punto de apoyo en 0): El -ésimo central de momento de $n$ $X$

{metro}_{norte} = mi [X^{norte}]

$m_n=E[X^n]$

n

$n$

X

$X$

{\hat{metro}}_{norte} = {metro}_{norte} ({metro}_{1}) = mi [(X - {metro}_{1})^{norte}]

$\hat m_n=m_n(m_1) =E[(X-m_1)^n]$ Esto corresponde a los momentos en que el punto de apoyo se coloca en el centro de masa, por lo que la distribución es equilibrada. Permite que los momentos se interpreten más fácilmente, como veremos a continuación. El primer momento central siempre será cero, porque la distribución es equilibrada.

El -ésimo estandarizada momento de es: $n$ $X$ Nuevamente, esto escala los momentos por la extensión de la distribución, lo que permite una interpretación más fácil específicamente de la curtosis. El primer momento estandarizado siempre será cero, el segundo siempre será uno. Esto corresponde al momento del puntaje estándar (puntaje z) de una variable. No tengo un gran análogo físico para este concepto.

{\tilde{metro}}_{norte} = \frac{{\hat{metro}}_{norte}}{{(\sqrt{{\hat{metro}}_{2}})}^{norte}} = \frac{mi [(X - {metro}_{1})^{norte}]}{{(\sqrt{mi [(X - {metro}_{1})^{2}]})}^{norte}}

$\tilde m_n = \dfrac{\hat m_n}{\left(\sqrt{\hat m_2}\right)^n}=\dfrac{E[(X-m_1)^n]} {\left(\sqrt{E[(X-m_1)^2]}\right)^n}$

Momentos de uso común

Para cualquier distribución hay potencialmente un número infinito de momentos. Los momentos suficientes casi siempre caracterizarán y distribuirán completamente (derivar las condiciones necesarias para que esto sea seguro es parte del problema del momento ). Se habla comúnmente de cuatro momentos sobre las estadísticas:

Media : el primer momento (centrado alrededor de cero). Es el centro de masa de la distribución, o alternativamente es proporcional al momento de par de la distribución en relación con un fulcro en 0.
$X$
Torcedura : el tercer momento central (a veces estandarizado). Una medida del sesgo de una distribución en una dirección u otra. En relación con una distribución normal (que no tiene sesgo), la distribución sesgada positivamente tiene una probabilidad baja de resultados extremadamente altos, las distribuciones sesgadas negativamente tienen una probabilidad pequeña de resultados extremadamente bajos. Los análogos físicos son difíciles, pero en términos generales mide la asimetría de una distribución. Como ejemplo, la siguiente figura está tomada de Wikipedia .
$X$

Raramente hablamos de momentos más allá de la curtosis, precisamente porque hay muy poca intuición para ellos. Esto es similar a los físicos que se detienen después del segundo momento.

Jayk
fuente

6

Este es un poco un hilo viejo, pero deseo corregir una declaración errónea en el comentario de Fg Nu, quien escribió "Los momentos están parametrizados por los números naturales y caracterizan completamente una distribución".

Los momentos NO caracterizan completamente una distribución. Específicamente, el conocimiento de un número infinito de momentos, incluso si existen, no determina necesariamente de manera única la distribución.

Según mi libro de probabilidades favorito, Feller "Introducción a la teoría de la probabilidad y sus aplicaciones Vol. II" (vea mi respuesta en Ejemplos de la vida real de distribuciones comunes ), ejemplo de la sección VII.3 en las páginas 227-228, lo Lognormal no está determinado por sus momentos, lo que significa que hay otras distribuciones que tienen un número infinito de momentos iguales al Lognormal, pero diferentes funciones de distribución. Como es ampliamente conocido, la función de generación de momentos no existe para el Lognormal, ni puede existir para estas otras distribuciones que poseen los mismos momentos.

$X$

\sum_{norte = 1}^{\infty} (mi [X^{2 norte}])^{- 1 / / (2 norte)}

$\sum_{n=1}^{\infty} (\mathbb{E}[X^{2n}])^{-1/(2n)}$

diverge Tenga en cuenta que esto no es un if y solo if. Esta condición no se cumple para lo Lognormal, y de hecho no está determinada por sus momentos.

Por otro lado, las distribuciones (variables aleatorias) que comparten un número infinito de momentos, solo pueden diferir en gran medida, debido a las desigualdades que pueden derivarse de sus momentos.

Mark L. Stone
fuente

Esto se simplifica considerablemente cuando la distribución está limitada, en cuyo caso los momentos siempre determinan la distribución por completo (únicamente).

Alex R.

@ Alex Esa es una consecuencia inmediata del resultado citado en Feller.

whuber

No es completamente correcto decir que la función generadora de momento no existe para el lognormal. Los teoremas más útiles sobre mgf's suponen que existe en un intervalo abierto que contiene cero, y en el sentido estricto no existe. Pero sí existe en un rayo que emana de cero !, y que también proporciona información útil.

kjetil b halvorsen

@ kjetil b halvorsen, ¿puede describir (parte de) la información útil que obtendría de la existencia del MGF de un lognormal en un rayo que emana de cero? ¿Qué rayo sería ese?

Mark L. Stone el

Tope del comentario anterior como pregunta a @kjetil b halvorsen ..

Mark L. Stone

2

Un corolario de las observaciones de Glen_b es que el primer momento, la media, corresponde al centro de gravedad de un objeto físico, y el segundo momento alrededor de la media, la varianza, corresponde a su momento de inercia. Después de eso, estás solo.

Mike Anderson
fuente

3

Me gusta la relación del primer momento y la media ... pero el segundo momento no es la varianza ... la varianza es el segundo momento centrado ...

E [x^{2}] = \int x^{2} f (x) d x

$E[x^2] = \int x^2f(x)dx$

v a r [x] = E [(x - E [x])^{2}] = \int (x - E [x])^{2} f (x) d x

$var[x]=E[(x-E[x])^2] = \int (x-E[x])^2f(x)dx$ .

Zachary Blumenfeld

0

Un árbol binomial tiene dos ramas, cada una con una probabilidad de 0.5. En realidad, p = 0.5 y q = 1-0.5 = 0.5. Esto genera una distribución normal con una masa de probabilidad distribuida uniformemente.

En realidad, debemos suponer que cada nivel del árbol está completo. Cuando dividimos los datos en contenedores, obtenemos un número real de la división, pero lo redondeamos. Bueno, ese es un nivel que está incompleto, por lo que no terminamos con un histograma que se aproxime a lo normal.

Cambie las probabilidades de ramificación a p = 0.9999 yq = 0.0001 y eso nos da una normalidad sesgada. La masa de probabilidad cambió. Eso explica la asimetría.

Tener niveles incompletos o contenedores de menos de 2 ^ n genera árboles binomiales con áreas que no tienen masa de probabilidad. Esto nos da curtosis.

Respuesta al comentario:

Cuando hablaba de determinar el número de contenedores, redondee al siguiente número entero.

Las máquinas Quincunx lanzan bolas que finalmente se aproximan a la distribución normal a través del binomio. Una máquina de este tipo hace varios supuestos: 1) el número de contenedores es finito, 2) el árbol subyacente es binario y 3) las probabilidades son fijas. La máquina Quincunx en el Museo de Matemáticas de Nueva York, permite al usuario cambiar dinámicamente las probabilidades. Las probabilidades pueden cambiar en cualquier momento, incluso antes de que finalice la capa actual. De ahí esta idea de que los contenedores no se llenen.

A diferencia de lo que dije en mi respuesta original cuando tienes un vacío en el árbol, la distribución demuestra curtosis.

Estoy mirando esto desde la perspectiva de los sistemas generativos. Yo uso un triángulo para resumir los árboles de decisión. Cuando se toma una nueva decisión, se agregan más contenedores en la base del triángulo y, en términos de distribución, en las colas. Recortar subárboles del árbol dejaría vacíos en la masa de probabilidad de la distribución.

Solo respondí para darte un sentido intuitivo. ¿Etiquetas? Utilicé Excel y jugué con las probabilidades en el binomio y generé los sesgos esperados. No lo he hecho con la curtosis, no ayuda que nos veamos obligados a pensar que la masa de probabilidad es estática al usar el lenguaje que sugiere movimiento. Los datos subyacentes o las bolas causan la curtosis. Luego, lo analizamos de manera diversa y lo atribuimos a la forma de términos descriptivos como centro, hombro y cola. Las únicas cosas con las que tenemos que trabajar son los contenedores. Los contenedores viven vidas dinámicas incluso si los datos no pueden.

David Locke
fuente

2

Esto es intrigante, pero terriblemente incompleto. ¿Cuáles son las etiquetas en su árbol binomial, por ejemplo? Será mejor que sea un árbol infinito si desea obtener una distribución normal, pero luego las etiquetas obvias (usando una caminata aleatoria o usando representaciones binarias de números reales) no conducen a distribuciones normales en absoluto. Sin estos detalles, queda demasiado para la imaginación de los lectores. ¿Podrías darles más detalles?

whuber

¿Qué son exactamente los momentos? ¿Cómo se derivan?

Respuestas:

Descripción general de momentos con análogos físicos.

Momentos de uso común