¿Cómo ajustar un PDF aproximado (es decir: estimación de densidad) usando los primeros k (empíricos) momentos?

Tengo una situación en la que puedo estimar (los primeros) momentos de un conjunto de datos, y me gustaría usarlo para producir una estimación de la función de densidad. $k$

Ya me encontré con la distribución de Pearson , pero me di cuenta de que solo se basa en los primeros 4 momentos (con algunas restricciones en las posibles combinaciones de momentos).

También entiendo que cualquier conjunto finito de momentos no es suficiente para "precisar" una distribución específica, cuando no se utilizan más suposiciones. Sin embargo, todavía me gustaría una clase de distribuciones más general (que no sea la familia de distribuciones Pearson). Mirando otras preguntas, no pude encontrar esa distribución (ver: aquí , aquí , aquí , aquí , aquí y aquí ).

¿Hay alguna familia de distribución generalizada ("simple") que pueda definirse para cualquier conjunto de momentos? (tal vez un conjunto de transformaciones que pueden tomar una distribución normal estándar y transformarla hasta que se confirme con todo el conjunto de momentos) $k$ $k$

(No me importa mucho si asumimos que los otros momentos son 0 o no) $k+1\ldots\infty$

Gracias.

ps: estaría feliz por un ejemplo extendido. Preferiblemente con un ejemplo de código R.

pdf kernel-smoothing moments Tal Galili
fuente

Los primeros momentos definen las primeras derivadas de la función característica en cero: . Entonces conoce los primeros términos de la expansión de Taylor de la función característica alrededor de cero. Entonces puede utilizar los teoremas de inversión para derivar la densidad.

k

$k$

k

$k$

E [X^{k}] = (- i)^{k} ϕ_{X}^{(k)} (0)

$E[X^k] = (-i)^k\phi_X^{(k)}(0)$

k

$k$

Stephan Kolassa

Gracias @StephanKolassa: ¿hay alguna posibilidad de una respuesta extendida / un ejemplo de código R?

Tal Galili

en.wikipedia.org/wiki/Maximum_entropy_probability_distribution sugiere un método general.

whuber

Estimado @whuber, ¿podría sugerir un ejemplo de código R? (también, ¿va esto con la respuesta de los lobos?)

Tal Galili el

Este es un enfoque completamente diferente de esa respuesta.

whuber

Método 1: sistemas Pearson de orden superior

El sistema de Pearson se considera, por convención, la familia de soluciones a la ecuación diferencial: $p(x)$

\frac{d p (x)}{d x} = - \frac{(a + x)}{c_{0} + c_{1} x + c_{2} x^{2}} p (x)

$\frac{d p (x)}{dx} \; = \; -\frac{(a+x) }{c_0 + c_1 x + c_2 x^2} \; p(x)$

donde los cuatro parámetros de Pearson se pueden expresar en términos de los primeros cuatro momentos de la población. $(a, c_0, c_1, c_2)$

En lugar de basar el sistema de Pearson en la cuadrática , uno puede considerar el uso de polinomios de orden superior como la piedra angular. Entonces, por ejemplo, uno puede considerar un sistema de estilo Pearson basado en un polinomio cúbico. Esta será la familia de soluciones a la ecuación diferencial: $c_0 + c_1 x + c_2 x^2$ $p(x)$

\frac{d p (x)}{d x} = - \frac{(a + x)}{c_{0} + c_{1} x + c_{2} x^{2} + c_{3} x^{3}} p (x)

$\frac{d p(x)}{dx} \; = \; -\frac{(a+x) }{c_0 + c_1 x + c_2 x^2 + c_3 x^3} \; p (x)$

que produce la solución:

Resolví esto por diversión hace algún tiempo (teniendo el mismo tren de pensamiento que el OP): la derivación y la solución se dan en el Capítulo 5 de nuestro libro; Si está interesado, una descarga gratuita está disponible aquí:

http://www.mathstatica.com/book/bookcontents.html

Tenga en cuenta que mientras que la familia de Pearson de segundo orden (cuadrática) se puede expresar en términos de los primeros 4 momentos, la familia de estilo Pearson de tercer orden (cúbica) requiere los primeros 6 momentos.

Método 2: expansiones de Gram-Charlier

$k^{th}$

¿Momentos de población o momentos de muestra?

Para el sistema de estilo Pearson: si se conocen los momentos de la población, el uso de momentos más altos debería proporcionar un mejor ajuste sin ambigüedades. Sin embargo, si los datos observados son una muestra aleatoria extraída de la población, existe una compensación: un polinomio de orden superior implica que se requieren momentos de orden más altos, y las estimaciones de este último pueden ser poco confiables (tienen una alta varianza), a menos que el tamaño de la muestra sea 'grande'. En otras palabras, dados los datos de muestra, el ajuste usando momentos más altos puede volverse 'inestable' y producir resultados inferiores. Lo mismo es cierto para las expansiones de Gram-Charlier: agregar un término adicional en realidad puede producir un peor ajuste, por lo que se requiere un poco de cuidado.

lobos
fuente

Queridos @wolfies: ¡gracias por tu respuesta! Si te entiendo correctamente, las expansiones de Gram-Charlier están más en línea con lo que estoy buscando (aunque es interesante conocer la distribución más generalizada de Pearson). Miré su libro (capítulo 5, a partir de la página 175), y vi que realmente da una descripción detallada (con también menciones de cómo lidiar con los momentos estimados, que es mi caso). Lo único es que no puedo usar su código (ya que soy un usuario R). Gracias por su respuesta (y también por su libro que parece impresionante e interesante en general)

Tal Galili

Acabo de encontrar un paquete R para tratar con los diversos métodos: cran.us.r-project.org/web/packages/PDQutils/vignettes/…

Tal Galili

¿Cómo ajustar un PDF aproximado (es decir: estimación de densidad) usando los primeros k (empíricos) momentos?

Respuestas: