¿Qué se puede concluir acerca de los datos cuando la media aritmética está muy cerca de la media geométrica?

24

¿Hay algo significativo acerca de una media geométrica y una media aritmética que se acerquen mucho, digamos ~ 0.1%? ¿Qué conjeturas se pueden hacer sobre ese conjunto de datos?

He estado trabajando en el análisis de un conjunto de datos, y noto que, irónicamente, los valores están muy, muy cerca. No es exacto, pero cercano. Además, una comprobación rápida de la cordura de la desigualdad media aritmética media-geométrica, así como una revisión de la adquisición de datos, revelan que no hay nada sospechoso sobre la integridad de mi conjunto de datos en términos de cómo se me ocurrieron los valores.

usuario12289
fuente
66
Pequeña nota: Primero verifique que sus datos sean positivos; un número par de valores negativos puede dejarlo con un producto positivo, y algunos paquetes pueden no señalar el problema potencial (la desigualdad AM-GM depende de que todos los valores sean positivos). Ver por ejemplo (en R): (mientras que la media aritmética es 1)x=c(-5,-5,1,2,3,10); prod(x)^(1/length(x)) [1] 3.383363
Glen_b -Reinstalar Monica
1
Para elaborar sobre el punto de @ Glen_b, un conjunto de datos siempre tiene la misma media aritmética y geométrica, es decir, cero. Sin embargo, podemos difundir los tres valores tan lejos como lo deseemos. {x,0,x}
hardmath
Tanto los medios aritméticos como los geométricos tienen la misma fórmula generalizada , con dando el primero y dando el segundo. Entonces queda intuitivamente claro que los dos se vuelven cada vez más cercanos cuando los valores de datos son cada vez más iguales, acercándose constantemente. p 0 xp=1p0x
ttnphns

Respuestas:

29

La media aritmética está relacionada con la media geométrica a través de la desigualdad Aritmética-Media-Geométrica-Media (AMGM) que establece que:

x1+x2++xnnx1x2xnn,

donde se logra la igualdad si f . Por lo tanto, probablemente sus puntos de datos estén muy cerca uno del otro.X1=X2==Xnorte

Alex R.
fuente
44
Esto es correcto. Típicamente, cuanto menor es la varianza de los valores, más cerca están las dos medias.
Michael M
16
La varianza tendría que ser pequeña POR COMPARACIÓN con los tamaños de las observaciones. Por lo tanto, es el coeficiente de variación, , el que debería ser pequeño. σ/ /μ
Michael Hardy
1
¿AMGM significa algo? Si es así, sería bueno explicarlo.
Richard Hardy
@RichardHardy: AMGM significa 'media aritmética - media geométrica'
1
@ user1108, gracias, en realidad, lo obtuve después de leer las otras publicaciones. Solo creo que podría explicarse en la respuesta (no solo en los comentarios).
Richard Hardy
15

Desarrollando la respuesta de @Alex R, una forma de ver la desigualdad AMGM es como un efecto de desigualdad de Jensen. Por la desigualdad de Jensen : Luego tome la exponencial de ambos lados: 1

Iniciar sesión(1norteyoXyo)1norteyoIniciar sesiónXyo
1norteyoXyoexp(1norteyoIniciar sesiónXyo)

El lado derecho es la media geométrica ya que(X1X2...Xnorte)1/ /norte=exp(1norteyoIniciar sesiónXyo)

¿Cuándo se mantiene la desigualdad AMGM con casi igualdad? Cuando el efecto de desigualdad de Jensen es pequeño. Lo que impulsa el efecto de desigualdad de Jensen aquí es la concavidad, la curvatura del logaritmo. Si sus datos se extienden por un área donde el logaritmo tiene curvatura, el efecto será grande. Si sus datos se extienden por una región donde el logaritmo es básicamente afín, el efecto será pequeño.

Por ejemplo, si los datos tienen poca variación, se agrupan en un vecindario lo suficientemente pequeño, entonces el logaritmo se verá como una función afín en esa región (un tema de cálculo es que si hace un acercamiento suficiente en una función suave y continua, eso se verá como una línea). Para datos suficientemente cercanos, la media aritmética de los datos estará cerca de la media geométrica.

Matthew Gunn
fuente
12

Investiguemos el rango de dado que su media aritmética (AM) es un pequeño múltiplo de su media geométrica (GM) (con ). En la pregunta, pero no sabemos . 1 + δ δ 0 δ 0.001 nX1X2Xnorte1+δδ0 0δ0.001norte

Dado que la proporción de estos medios no cambia cuando se cambian las unidades de medida, elija una unidad para la cual el GM sea . Por lo tanto, buscamos maximizar sujeto a la restricción de que y .x n x 1 + x 2 + + x n = n ( 1 + δ )1XnorteX1+X2++Xnorte=norte(1+δ)X1X2Xnorte=1

Esto se hará haciendo , digamos, y . Asíx n = z xX1=X2==Xnorte-1=XXnorte=zX

norte(1+δ)=X1++Xnorte=(norte-1)X+z

y

1=X1X2Xnorte=Xnorte-1z.

La solución es una raíz entre y deX0 01

(1-norte)Xnorte+norte(1+δ)Xnorte-1-1)

Se encuentra fácilmente de forma iterativa. Aquí están las gráficas de la y óptima en función de para , de izquierda a derecha:Xzδnorte=6 6,20,50,150

Figura

Tan pronto como alcanza un tamaño apreciable, incluso una pequeña proporción de es consistente con una gran periférica (las curvas rojas superiores) y un grupo de fuertemente agrupadas (las curvas azules inferiores).norte1.001XnorteXyo

En el otro extremo, supongamos que es par (por simplicidad). El rango mínimo se alcanza cuando la mitad de igual a un valor y la otra mitad es igual a otro valor . Ahora la solución (que se verifica fácilmente) esnorte=2kXyoX1z1

Xk=1+δ±δ2+2δ.

Para la pequeña , podemos ignorar la como una aproximación y también aproximar la raíz al primer orden, dandoδδ2kth

X1+δ-2δk; z1+δ+2δk.

El rango es aproximadamente .32δ/ /norte

De esta manera, hemos obtenido límites superior e inferior en el rango posible de los datos. Hemos aprendido que dependen en gran medida de la cantidad de datos . El límite superior muestra que el rango puede ser apreciable incluso para un pequeño , mejorando así nuestra sensación de cuán cerca uno del otro realmente deben estar los puntos de datos, y también colocando un límite inferior en su rango.norteδ

Análisis similares, que se pueden llevar a cabo fácilmente, pueden informarle, cuantitativamente, de cuán estrechamente agrupada puede estar la en términos de cualquier otra medida de propagación, como su varianza o coeficiente de variación.Xyo

whuber
fuente
A la derecha de su gráfico de la derecha, parece que tiene . No veo cómo estos valores están cerca de las aproximaciones de fórmulas establecidas que parecen dar . Quizás he entendido malnorte=150,δ=0.002,X0.9954,z1.983,k=75X0.99918,z1.00087
Henry
@ Henry No sé cómo se te ocurrieron esos números. Cuando , los requisitos son que y . Ninguno de los dos se acerca a ser cierto para los valores que suministra. Cuando se enchufa en y , se obtienen los valores correctos. norte=150X149z=1149X+z=150(1.002)=150,3X=0.995416z=1.98308
whuber
Intenté lo que me parece su y de manera similar para . Pero ahora veo que esto está respondiendo una pregunta diferentexz1+δ+2δk=1+0.002+2×0.002751.00087X
Henry
@Henry Eso resuelve un problema diferente: esos son los valores que dan un rango mínimo . No publiqué gráficos para esos. De hecho, con su y tenemos y , según sea necesario. z 75 x + 75 z 150.3 x 75 z 751Xz75X+75z150,3X75z751
whuber