Noto que en los métodos de estadística / aprendizaje automático, una distribución es a menudo aproximada por un gaussiano, y luego ese gaussiano se usa para el muestreo. Comienzan calculando los dos primeros momentos de la distribución, y los usan para estimar y . Entonces pueden probar de ese gaussiano.
Me parece que cuantos más momentos calculo, mejor debería poder aproximar la distribución que deseo muestrear.
¿Qué sucede si calculo 3 momentos ... cómo puedo usarlos para tomar muestras de la distribución? ¿Y puede esto extenderse a N momentos?
probability
sampling
moments
curioso_dan
fuente
fuente
Respuestas:
Tres momentos no determinan una forma distributiva; Si elige una familia de distribución con tres parámetros que se relacionan con los primeros tres momentos de la población, puede hacer una coincidencia de momentos ("método de momentos") para estimar los tres parámetros y luego generar valores a partir de dicha distribución. Hay muchas distribuciones de este tipo.
A veces, incluso tener todos los momentos no es suficiente para determinar una distribución. Si existe la función de generación de momentos (en una vecindad de 0), entonces identifica de forma exclusiva una distribución (en principio, podría hacer una transformación inversa de Laplace para obtenerla).
[Si algunos momentos no son finitos, esto significaría que el mgf no existe, pero también hay casos en que todos los momentos son finitos pero el mgf todavía no existe en un vecindario de 0.]
Dado que hay una variedad de distribuciones, uno podría verse tentado a considerar una solución de entropía máxima con la restricción en los primeros tres momentos, pero no hay distribución en la línea real que la alcanza (ya que el cúbico resultante en el exponente será ilimitado).
Cómo funcionaría el proceso para una elección específica de distribución
Podemos hacer esto porque después de haber seleccionado una distribución con la asimetría relevante, podemos retroceder la media y la varianza deseadas escalando y desplazando.
Consideremos un ejemplo. Ayer creé un gran conjunto de datos (que todavía está en mi sesión R) cuya distribución no he intentado calcular la forma funcional de (es un gran conjunto de valores del registro de la varianza de muestra de un Cauchy en n = 10). Tenemos los primeros tres momentos crudos como 1.519, 3.597 y 11.479 respectivamente, o correspondientemente una media de 1.518, una desviación estándar * de 1.136 y una asimetría de 1.429 (por lo que estos son valores de muestra de una muestra grande).
Formalmente, el método de los momentos intentaría igualar los momentos crudos, pero el cálculo es más simple si comenzamos con la asimetría (convirtiendo la resolución de tres ecuaciones en tres incógnitas en la resolución de un parámetro a la vez, una tarea mucho más simple).
* Voy a eliminar a mano la distinción entre usar un denominador n en la varianza, como correspondería al método formal de momentos, y un denominador n-1 y simplemente usaré cálculos de muestra.
Pero podríamos haber elegido fácilmente una distribución gamma desplazada o una distribución Weibull desplazada (o una F desplazada o cualquier otra opción) y ejecutar esencialmente el mismo proceso. Cada uno de ellos sería diferente.
[Para la muestra con la que estaba tratando, una gamma desplazada probablemente habría sido una opción mucho mejor que una lognormal desplazada, ya que la distribución de los registros de los valores se dejó sesgada y la distribución de su raíz cúbica era muy simétrica; estos son consistentes con lo que verá con densidades gamma (sin desplazamiento), pero no se puede lograr una densidad sesgada a la izquierda de los registros con ningún desplazamiento lognormal].
Incluso se podría tomar el diagrama de asimetría-curtosis en un diagrama de Pearson y dibujar una línea en la asimetría deseada y así obtener una distribución de dos puntos, una secuencia de distribuciones beta, una distribución gamma, una secuencia de distribuciones beta-primas, un inverso. distribución gamma y una secuencia de distribuciones de Pearson tipo IV, todas con la misma asimetría.
Mas momentos
Los momentos no fijan muy bien las distribuciones, por lo que incluso si especifica muchos momentos, todavía habrá muchas distribuciones diferentes (particularmente en relación con su comportamiento de cola extrema) que las igualarán.
Por supuesto, puede elegir una familia distribucional con al menos cuatro parámetros e intentar igualar más de tres momentos; por ejemplo, las distribuciones de Pearson anteriores nos permiten hacer coincidir los primeros cuatro momentos, y hay otras opciones de distribuciones que permitirían un grado similar de flexibilidad.
Se pueden adoptar otras estrategias para elegir distribuciones que puedan coincidir con las características de distribución: distribuciones mixtas, modelar la densidad logarítmica utilizando splines, etc.
Sin embargo, con frecuencia, si uno vuelve al propósito inicial para el que estaba tratando de encontrar una distribución, a menudo resulta que hay algo mejor que se puede hacer que el tipo de estrategia descrita aquí.
fuente
Entonces, la respuesta es generalmente NO, no puedes hacer esto, pero a veces sí puedes.
Cuando no puedes
Las razones por las que no puede hacer esto generalmente son dos pliegues.
Primero, si tiene N observaciones, como máximo puede calcular N momentos. ¿Qué hay de los otros momentos? No puedes simplemente ponerlos a cero.
Cuando pueda
Ahora, a veces puedes obtener la distribución por momentos. Es cuando haces una suposición sobre la distribución de algún tipo. Por ejemplo, declaras que es normal. En este caso, todo lo que necesita es solo dos momentos, que generalmente se pueden calcular con una precisión decente. Tenga en cuenta que la distribución normal tiene momentos más altos, por ejemplo, curtosis, pero no los necesitamos. Si calculara todos los momentos de la distribución normal (sin suponer que es normal), luego intentara recuperar la función característica para muestrear de la distribución, no funcionaría. Sin embargo, cuando te olvidas de los momentos más altos y te apegas a los dos primeros, funciona.
fuente