¿Qué "medio" usar y cuándo?

197

Entonces tenemos media aritmética (AM), media geométrica (GM) y media armónica (HM). Su formulación matemática también es conocida junto con sus ejemplos estereotipados asociados (p. Ej., Media armónica y su aplicación a problemas relacionados con la "velocidad").

Sin embargo, una pregunta que siempre me ha intrigado es "¿cómo decido qué medio es el más apropiado para usar en un contexto dado?" Debe haber al menos alguna regla general para ayudar a comprender la aplicabilidad y, sin embargo, la respuesta más común que he encontrado es: "Depende" (¿pero de qué?).

Puede parecer una pregunta bastante trivial, pero incluso los textos de secundaria no explicaron esto: ¡solo proporcionan definiciones matemáticas!

Prefiero una explicación en inglés sobre una matemática: una prueba simple sería "¿lo entendería tu madre / hijo?"

Doctor
fuente
20
Esto quizás simplifica demasiado, pero siempre he usado rango y observaciones. Si el rango es igual = AM (compare puntajes 0-100, a 0-100), si el rango es diferente pero la observación es la misma = GM (compare puntajes 1-5, a 0-10), si el rango es igual pero observaciones son diferentes = HM (velocidad de un automóvil a diferentes obs, alturas de dos escaleras, otras "tasas").
Brandon Bertelsen
> "Depende" (¿pero de qué?) Depende del algoritmo de procesamiento de datos.
Macson
No es solo una elección de lo que significa usar. También es una elección de qué conjunto de estadísticas resumidas describir la población o el proceso de interés. Uno no debería pensar que todo lo que se necesita es un solo número para describir algo de tal vez una gran complejidad.
JimB

Respuestas:

160

Esta respuesta puede tener una inclinación un poco más matemática de la que estaba buscando.

Lo importante a reconocer es que todos estos medios son simplemente la media aritmética disfrazada .

La característica importante para identificar cuál de los tres medios comunes (si existe alguno) (aritmético, geométrico o armónico) es el medio "correcto" es encontrar la "estructura aditiva" en la pregunta en cuestión.

En otras palabras, supongamos que se nos dan algunas cantidades abstractas , que llamaré "medidas", abusando de este término a continuación por razones de coherencia. Cada una de estas tres medias se puede obtener (1) transformando cada en alguna , (2) tomando la media aritmética y luego (3) transformando nuevamente a la escala de medición original.x i y iX1,X2,...,XnorteXyoyyo

Media aritmética : Obviamente, usamos la transformación de "identidad": . Entonces, los pasos (1) y (3) son triviales (no se hace nada) y .ˉ x A M = ˉ yyyo=XyoX¯UNAMETRO=y¯

Media geométrica : aquí la estructura aditiva está en los logaritmos de las observaciones originales. Entonces, tomamos y luego para obtener el GM en el paso (3), convertimos de nuevo a través de la función inversa de , es decir, . logyyo=Iniciar sesiónXyoIniciar sesiónX¯solMETRO=Exp(y¯)

Media armónica : aquí la estructura aditiva está en los recíprocos de nuestras observaciones. Entonces, , de donde .ˉ x H M = 1 / ˉ yyyo=1/ /XyoX¯HMETRO=1/ /y¯

En problemas físicos, a menudo surgen a través del siguiente proceso: tenemos una cantidad que permanece fija en relación con nuestras medidas y algunas otras cantidades, digamos . Ahora, jugamos el siguiente juego: Mantenga constantes y e intente encontrar alguna manera que si reemplazamos cada una de nuestras observaciones individuales por , la relación "total" aún se conserve .x 1 , , x n z 1 , , z n w z 1 + + z nwX1,...,Xnortez1,...,znortewz1++znorte xi ˉ xX¯XyoX¯

El ejemplo de distancia-velocidad-tiempo parece ser popular, así que usémoslo.

Distancia constante, tiempos variables

Considere una distancia fija recorrida . Ahora supongamos que viajamos esta distancia veces diferentes a velocidades , tomando tiempos . Ahora jugamos nuestro juego. Supongamos que deseamos reemplazar nuestras velocidades individuales con alguna velocidad fija modo que el tiempo total permanezca constante. Tenga en cuenta que tenemos por lo que . Queremos que esta relación total (tiempo total y distancia total recorrida) se conserve cuando reemplazamos cada una de las por en nuestro juego. Por lo tanto, n v 1 , ... , v n t 1renortev1,...,vnorteˉ v d - v i t i = 0t1,...,tnortev¯i ( d - v i t i ) = 0 v i

re-vyotyo=0 0,
yo(re-vyotyo)=0 0vyo nd- ˉ viti=0v¯
nortere-v¯yotyo=0 0,
y dado que cada , obtenemos que ˉ v = ntyo=re/ /vyo
v¯=norte1v1++1vnorte=v¯HMETRO.

Tenga en cuenta que la "estructura aditiva" aquí es con respecto a los tiempos individuales, y nuestras mediciones están inversamente relacionadas con ellos, por lo tanto, se aplica la media armónica.

Diferentes distancias, tiempo constante

Ahora, cambiemos la situación. Supongamos que para instancias viajamos un tiempo fijo a velocidades sobre distancias . Ahora, queremos la distancia total conservada. Tenemos y el sistema total se conserva si . Jugando nuestro juego nuevamente, buscamos un tal que pero, dado que , obtenemos ese t v 1 , ... , v nnortetv1,...,vnorted i - v i t = 0re1,...,renortei ( d i - v i t ) = 0 ˉ v

reyo-vyot=0 0,
yo(reyo-vyot)=0 0v¯
yo(reyo-v¯t)=0 0,
ˉ v = 1reyo=vyot
v¯=1norteyovyo=v¯UNAMETRO.

Aquí la estructura aditiva que estamos tratando de mantener es proporcional a las medidas que tenemos, por lo que se aplica la media aritmética.

Cubo de igual volumen

Supongamos que hemos construido una caja dimensional con un volumen dado y nuestras medidas son las longitudes laterales de la caja. Luego y supongamos que queremos construir un cubo dimensional (hiper) con el mismo volumen. Es decir, queremos reemplazar nuestras longitudes laterales individuales por una longitud lateral común . Entonces V V = x 1x 2x nnorteVn x i ˉ x V = ˉ x

V=X1X2Xnorte,
norteXyoX¯
V=X¯X¯X¯=X¯norte.

Esto indica fácilmente que debemos tomar .X¯=(XyoXnorte)1/ /norte=X¯solMETRO

Tenga en cuenta que la estructura aditiva está en los logaritmos, es decir, y estamos tratando de conservar la cantidad de la izquierda.Iniciar sesiónV=yoIniciar sesiónXyo

Nuevos medios de viejos

Como ejercicio, piense en lo que significa "natural" en la situación en la que permite que las distancias y los tiempos varíen en el primer ejemplo. Es decir, tenemos distancias , velocidades y tiempos . Queremos conservar la distancia total y el tiempo recorrido y encontrar una constante para lograr esto.v i t i ˉ vreyovyotyov¯

Ejercicio : ¿Qué significa "natural" en esta situación?

cardenal
fuente
25
+1 Esta es una gran respuesta. Sin embargo, creo que está incompleto de una manera importante: en muchos casos, el medio correcto para usar está determinado por la pregunta que estamos tratando de responder en lugar de por cualquier estructura matemática en los datos. Un buen ejemplo de esto ocurre en la evaluación de riesgos ambientales: las autoridades reguladoras desean estimar la exposición total de una población a contaminantes a lo largo del tiempo. Esto requiere una media aritmética ponderada apropiadamente, aunque los datos de concentración ambiental usualmente tienen una estructura multiplicativa . La media geométrica sería el estimador o estimando incorrecto.
whuber
77
@whuber: (+1) Este es un excelente comentario. En mi camino hacia la construcción de una respuesta, tomé una bifurcación decididamente no estadística, así que me alegra que hayas mencionado esto. Es un tema digno de una respuesta completa ( pista ).
cardenal
99
@whuber: También trae a colación el hecho (quizás involuntariamente) de que el análisis estadístico a menudo puede estar sujeto a la supervisión de expertos en dominios (o, tal vez en su ejemplo, incluso inexpertos), que desean estimar algo significativo para su dominio pero casi completamente antinatural estadísticamente. ¡El problema con el que me he encontrado en el pasado es que a veces también quieren dictar la forma en que se realiza la estimación estadística! :)
cardenal
1
@whuber: Sería muy apreciado si pudieras agregar ese punto de vista a la respuesta también, con alguna explicación. Honestamente, sus explicaciones son una de las mejores que he visto en las estadísticas.
Doctorado
3
El gran comentario habitual de @whuber. A veces (¡quizás a menudo!) El medio correcto para usar es ninguno ; más bien, la pregunta a menudo debe ampliarse a "¿qué medida de tendencia central debo usar?".
Peter Flom
43

Ampliando el excelente comentario de @Brandon (que creo que debería promoverse para responder):

La media geométrica debe usarse cuando le interesan las diferencias multiplicativas. Brandon señala que la media geométrica debe usarse cuando los rangos son diferentes. Esto suele ser correcto. La razón es que queremos igualar los rangos. Por ejemplo, suponga que los solicitantes universitarios están calificados en puntaje SAT (0 a 800), promedio de calificaciones en HS (0 a 4) y actividades extracurriculares (1 a 10). Si una universidad quisiera promediarlos e igualar los rangos (es decir, el aumento de peso en cada calidad en relación con el rango), entonces la media geométrica sería el camino a seguir.

Pero esto no siempre es cierto cuando tenemos escalas con diferentes rangos. Si estuviéramos comparando ingresos en diferentes países (incluidos los pobres y ricos), probablemente no querríamos la media geométrica, sino la media aritmética (o, más probablemente, la mediana o quizás una media recortada).

El único uso que he visto para la media armónica es el de comparar tasas. Como ejemplo: si conduce desde Nueva York a Boston a 40 MPH y regresa a 60 MPH, entonces su promedio general no es la media aritmética de 50 MPH, sino la media armónica.

AM = HM =(40+60 60)/ /2=502/ /(1/ /40+1/ /60 60)=48

Para comprobar que esto es correcto para este simple ejemplo, imagine que está a 120 millas de Nueva York a Boston. Luego, el viaje en automóvil dura 3 horas, el viaje de regreso a casa demora 2 horas, el total es de 5 horas y la distancia es de 240 millas. 240/ /5 5=48

Peter Flom
fuente
3
¿Por qué su ejemplo SAT / GPA / extracurricular utilizaría una media geométrica en lugar de una media aritmética ponderada o escalada? ¿Por qué un SAT o GPA de cero significa que los otros dos valores se vuelven irrelevantes (como implicaría una media geométrica)? ¿Y si (digamos) las actividades extracurriculares tienden a agruparse en una banda mucho más estrecha que su rango teórico? Parece que tendría más sentido tomar una media aritmética de percentiles (u otros valores ajustados) que una media geométrica de valores brutos.
ruakh
1
@ruakh Interesante. El problema 0 realmente no importa en este caso, ya que SAT y GPA realmente no pueden ser 0 (SAT = 0 es casi imposible, y GPA de 0 no se graduaría). Creo que una media aritmética de percentiles estará cerca de la media geométrica en sus conclusiones (aunque no en los números reales).
Peter Flom
31

Trataré de reducirlo a 3-4 reglas generales y proporcionaré algunos ejemplos más de los medios pitagóricos.

La relación entre las 3 medias es HM <GM <AM para datos no negativos con alguna variación . Serán iguales si y solo si no hay variación en absoluto en los datos de muestra.

Para datos en niveles, use el AM. Los precios son un buen ejemplo. Para las proporciones, use el GM. Los retornos de inversión, los precios relativos como el índice Bloomberg Billy (el precio de la estantería Billy de Ikea en varios países en comparación con el precio de EE. UU.) Y el Índice de Desarrollo Humano de la ONU son ejemplos. HM es apropiado cuando se trata de tarifas. Aquí hay un ejemplo no automotriz cortesía de David Giles :

Por ejemplo, considere los datos sobre "horas trabajadas por semana" (una tasa). Supongamos que tenemos cuatro personas (observaciones de muestra), cada una de las cuales trabaja un total de 2,000 horas. Sin embargo, trabajan durante diferentes horas por semana, de la siguiente manera:

Person      Total Hours       Hours per Week          Weeks Taken
1                  2,000                  40                   50
2                  2,000                  45                   44.4444
3                  2,000                  35                   57.142857
4                  2,000                  50                   40

Total:           8,000                                       191.587297

La media aritmética de los valores en la tercera columna es AM = 42.5 horas por semana. Sin embargo, observe lo que implica este valor. Al dividir el número total de semanas trabajadas por los miembros de la muestra (8,000) por este valor promedio, se obtiene un valor de 188,2353 como el número total de semanas trabajadas por las cuatro personas.

Ahora mira la última columna en la tabla de arriba. De hecho, el valor correcto para el número total de semanas trabajadas por los miembros de la muestra es 191.5873 semanas. Si calculamos la media armónica para los valores de horas por semana en la tercera columna de la tabla, obtenemos HM = 41.75642 horas (<AM), y dividir este número en 8,000 horas nos da el resultado correcto de 191.5873 para el número total de semanas trabajadas. Aquí hay un caso en el que la media armónica proporciona la medida adecuada para el promedio de la muestra.

David también analiza la versión ponderada de los 3 medios, que aparecen en los índices de precios utilizados para medir la inflación.

Un Hijacky aparte:

Estos ROT no son perfectos. Por ejemplo, a menudo me resulta difícil determinar si algo es una tasa o una relación. Los rendimientos de una inversión generalmente se tratan como una relación cuando se calculan los medios, pero también son una tasa, ya que generalmente se denominan en "x% por unidad de tiempo". ¿"Usar HM cuando los datos son niveles por unidad de tiempo" sería una mejor heurística?

Si quisiera resumir el Índice Big Mac para los países del norte de Europa, ¿utilizaría el GM?

Dimitriy V. Masterov
fuente
3
Un par de años tarde, pero ¿alguna vez encontró una respuesta a su pregunta sobre: ​​"Si quisiera resumir el Índice Big Mac para los países del norte de Europa, usaría el GM?" ?
StatsScared
2
@StatsScared Nope, ¡pero esa sería una buena pregunta!
Dimitriy V. Masterov
7

Una posible respuesta a su pregunta ("¿cómo decido qué medio es el más apropiado para usar en un contexto dado?") Es la definición de media dada por el matemático italiano Oscar Chisini .

Aquí hay un documento con una explicación más detallada y algunos ejemplos (velocidad media de desplazamiento y otros).

boscovich
fuente
66
Sería ideal si pudiera agregar algunas líneas sobre la definición de Chisini aquí en caso de que el enlace se bloquee, y / o para ayudar a los lectores a saber si quieren hacer clic en el enlace para seguir adelante con las ideas.
Gung
2
De hecho, el enlace al documento está muerto. El enlace Wolfram no proporciona ninguna idea de cómo la definición de Chisini es útil para determinar qué medio utilizar en un contexto dado; me parece solo una generalización matemática en lugar de una prescripción de uso.
Ryan Simmons
1
Al usar el DOI, se puede ver que el documento se ha movido a tandfonline.com Cita: R Graziani, P Veronese (2009). ¿Cómo calcular una media? El enfoque de Chisini y sus aplicaciones. The American Statistician 63 (1), págs. 33-36. tandfonline.com/doi/abs/10.1198/tast.2009.0006
akraf
0

Creo que una forma simple de responder la pregunta sería:

  1. Si la estructura matemática es xy = k (una relación inversa entre variables) y está buscando un promedio, entonces necesita usar la media armónica, que equivale a una media aritmética ponderada, considere

Promedio armónico = 2ab / (a ​​+ b) = a (b / a + b) + b (a / (a ​​+ b)

Por ejemplo: el promedio del costo en dólares cae en esta categoría porque la cantidad de dinero que está invirtiendo (A) permanece fija, pero el precio por acción (P) y el número de acciones (N) varían (A = PN). De hecho, si piensa en un promedio aritmético como un número igualmente centrado entre dos números, el promedio armónico también es un número igualmente centrado entre dos números pero (y esto es bueno) el "centro" es donde están los porcentajes (proporciones) igual. Es decir: (x - a) / a = (b -x) / b, donde x es el promedio armónico.

  1. Si la estructura matemática es una variación directa y = kx, se usa la media aritmética, que es a lo que se reduce la media armónica en este caso.
Ira Nirenberg
fuente
1
$x$X\frac{a}{b}unasi
Digamos que desea promediar las probabilidades de varios modelos diferentes. En ese caso, ¿tiene sentido usar medias geométricas o armónicas?
thecity2