¿Es la mediana un tipo de media, para alguna generalización de "media"?

20

El concepto de "media" va mucho más allá de la media aritmética tradicional; ¿se estira tanto como para incluir la mediana? Por analogia,

raw dataidraw datameanraw meanid1arithmetic meanraw datarecipreciprocalsmeanmean reciprocalrecip1harmonic meanraw dataloglogsmeanmean loglog1geometric meanraw datasquaresquaresmeanmean squaresquare1root mean squareraw datarankranksmeanmean rankrank1median

La analogía que estoy dibujando es a la media cuasi-aritmética , dada por:

Mf(x1,,xn)=f1(1ni=1nf(xi))

A modo de comparación, cuando decimos que la mediana de un conjunto de datos de cinco elementos es igual al tercer elemento, podemos ver que es equivalente a clasificar los datos de uno a cinco (lo que podríamos denotar con una función ); tomando la media de los datos transformados (que es tres); y volver a leer el valor del elemento de datos que tenía rango tres (una especie de ).ff1

En los ejemplos de media geométrica, media armónica y RMS, era una función fija que se puede aplicar a cualquier número de forma aislada. Por el contrario, para asignar un rango o para volver de los rangos a los datos originales (interpolar cuando sea necesario) se requiere conocer todo el conjunto de datos. Además, en las definiciones que he leído de la media cuasiaritmética, se requiere que sea ​​continua. ¿Se considera alguna vez la mediana como un caso especial de media cuasiaritmética y, de ser así, cómo se define la ? ¿O se describe alguna vez la mediana como una instancia de alguna otra noción más amplia de "media"? La media cuasi-aritmética ciertamente no es la única generalización disponible.fff

Parte del problema es terminológico (¿qué significa "significar" de todos modos, especialmente en contraste con "tendencia central" o "promedio")? Por ejemplo, en la literatura para los sistemas de control borroso , una función de agregación es una función creciente con y F (b, b) = b ; una función de agregación para la cual \ min (x, y) \ leq F (x, y) \ leq \ max (x, y) para todo x, y \ en [a, b] se llama "media" (en un sentido general). ¡No hace falta decir que esta definición es increíblemente amplia! Y en este contexto, la mediana se conoce como un tipo de media. ^ {[1]}F:[a,b]×[a,b][a,b]F(a,a)=aF(b,b)=bmin(x,y)F(x,y)max(x,y)x,y[a,b][1]Pero tengo curiosidad por saber si las caracterizaciones menos amplias de la media aún pueden extenderse lo suficiente como para abarcar la mediana: la llamada media generalizada (que podría describirse mejor como la "media de poder") y la media de Lehmer no, pero otros pueden . Para lo que vale, Wikipedia incluye "mediana" en su lista de "otros medios" , pero sin más comentarios o citas.

[1] : Una definición tan amplia de media, adecuadamente extendida para más de dos entradas, parece estándar en el campo del control difuso y aparece muchas veces durante las búsquedas en Internet para casos de la mediana que se describe como mediana; Citaré, por ejemplo, Fodor, JC y Rudas, IJ (2009), " Sobre algunas clases de funciones de agregación que son migratorias ", IFSA / EUSFLAT Conf. (págs. 653-656). Por cierto, este artículo señala que uno de los primeros usuarios del término "media" ( moyenne ) fue Cauchy , en la Cours d'analyse de l'École royale polytechnique, 1ère partie; Analizar algébrique (1821). Contribuciones posteriores de Aczél , Chisini ,y de Finetti en el desarrollo de conceptos más generales de "media" que Cauchy son reconocidos en Fodor, J. y Roubens, M. (1995), " Sobre el significado de los medios ", Journal of Computational and Applied Mathematics , 64 (1), 103-115.

Lepisma
fuente
Creo que el promedio aritmético, la mediana y la moda mineral a menudo se llaman en general como "media" y la palabra a veces se usa de manera ambigua. El libro Cómo mentir con estadísticas lo usa como un ejemplo de "mentir" con estadísticas. (Entiendo que su pregunta es más general, así que publíquela como comentario)
Tim
@Tim Tengo la impresión no científica de que es raro ver "modo" referido como "malo". Pero definitivamente hay un gran nexo de confusión en torno al uso de "promedio" (que a veces se usa como sinónimo de "media aritmética" y otras veces incluye medidas de tendencia central que no son medias en absoluto) y "media" (que en El uso general, más que en el sentido técnico, se usa principalmente pero no exclusivamente para la "media aritmética"). Por cierto, ¡también es un tema difícil para las búsquedas en Internet, debido a los otros significados de "malo"!
Silverfish
3
los medios (aritméticos, geométricos, armónicos, potenciados, exponenciales, combinatorios, etc.) son "promedios analíticos". La mediana, los cuantiles, los tantiles son "promedios posicionales". La clasificación es bastante diferente de logaritmo, cuadrado, etc. porque es la transformación monotónica de cualquier variante a una variante uniforme y no hay un camino de regreso a la no transformación.
ttnphns
Por cierto, el término "media generalizada" está preocupado en.wikipedia.org/wiki/Generalized_mean
ttnphns
3
Si permite pesos en el cálculo , entonces la mediana podría considerarse fácilmente como una especie de media. De manera similar, pero no de manera idéntica, el concepto de medios recortados ciertamente incluye medianas como un caso especial limitante o de cortesía. stata-journal.com/article.html?article=st0313 es una revisión bastante reciente. iwixi,iwi=1
Nick Cox

Respuestas:

9

Aquí hay una manera de considerar una mediana como un "tipo general de media": primero, defina cuidadosamente su media aritmética ordinaria en términos de estadísticas de orden:

x¯=iwix(i),wi=1n.

Luego, al reemplazar ese promedio ordinario de estadísticas de pedidos con alguna otra función de peso, obtenemos una noción de "media generalizada" que explica el pedido.

En ese caso, una serie de posibles medidas de centro se convierten en "tipos de medios generalizados". En el caso de la mediana, para impar , w ( n + 1 ) / 2 = 1 y todos los demás son 0, y para par n , w nnw(n+1)/2=1n .wn2=wn2+1=12

Del mismo modo, si observamos la estimación M, las estimaciones de ubicación también podrían considerarse como una generalización de la media aritmética (donde para la media, es cuadrática, ψ es lineal o la función de peso es plana), y la mediana cae también en esta clase de generalizaciones. Esta es una generalización algo diferente a la anterior.ρψ

Hay una variedad de otras formas en que podríamos extender la noción de 'media' que podría incluir la mediana.

Glen_b -Reinstate a Monica
fuente
Esto esta muy bien. Estrechamente relacionado con esta respuesta, y que se discute en los documentos citados en la pregunta: el promedio ponderado ordenado, o OWA
Silverfish
11

Si piensa en la media como el punto que minimiza la función de pérdida cuadrática SSE, entonces la mediana es el punto que minimiza la función de pérdida lineal MAD, y el modo es el punto que minimiza alguna función de pérdida 0-1. No se requieren transformaciones.

Entonces, la mediana es un ejemplo de una media de Fréchet .

Mike Anderson
fuente
3
@Mike Anderson: Bueno, esto muestra que los medios son una media de Frechet (vea el artículo de Wikipedia): en.wikipedia.org/wiki/Fr%C3%A9chet_mean
kjetil b halvorsen
@Kjetil Excelente! El hecho de que la mediana sea un ejemplo de una media de Fréchet es exactamente una respuesta a mi pregunta "¿se describe la mediana como una instancia de alguna otra noción más amplia de" media "?" Y +1 a Mike Anderson. Espero que esta información se edite en la respuesta.
Silverfish
2
He agregado el comentario de @ Kjetil a la respuesta para que aparezca en una búsqueda en el sitio para "Frechet mean". Gracias a los dos.
Silverfish
4

Una generalización fácil pero fructífera es a los medios ponderados , donde n i = 1 w i = 1 . Claramente, la media común o de jardín es el caso especial más simple con pesos iguales w i = 1 / n .i=1nwixi/i=1nwi,i=1nwi=1wi=1/n

Dejar que los pesos dependan del orden de los valores en magnitud, de menor a mayor, apunta a varios otros casos especiales, en particular la idea de una media recortada , que también se conoce con otros nombres.

Para evitar el uso excesivo de la notación donde no es necesaria o especialmente útil, imagine, por ejemplo, ignorar los valores más pequeños y más grandes y tomar la media (igualmente ponderada) de los demás. O imagine ignorar los dos más pequeños y los dos más grandes y tomar la media de los demás; Etcétera. El recorte más enérgico ignoraría todos menos uno o dos valores medios en orden, dependiendo de si el número de valores era par o impar, lo que naturalmente es solo la mediana familiar . Nada en la idea de recortar lo compromete a ignorar números iguales en cada cola de una muestra, pero decir más sobre el recorte asimétrico nos alejaría más de la idea principal en este hilo.

En resumen, los medios (no calificados) y las medianas son casos límite extremos de la familia de los medios recortados (simétricos). La idea general es permitir compromisos entre un ideal de usar toda la información en los datos y otro ideal de protegerse de puntos de datos extremos, que pueden ser valores atípicos poco confiables.

Vea la referencia aquí para una revisión bastante reciente.

Nick Cox
fuente
4

La pregunta nos invita a caracterizar el concepto de "media" en un sentido lo suficientemente amplio como para abarcar todos los medios habituales: medios de poder, medios , medianas, medios recortados, pero no tan ampliamente que se vuelve casi inútil para el análisis de datos . Esta respuesta discute algunas de las propiedades axiomáticas que cualquier definición razonablemente útil de "media" debería tener.Lp


Axiomas Básicos

A útilmente amplia definición de "media" a los efectos de análisis de datos sería cualquier secuencia de, funciones deterministas bien definidos para A R y n = 1 , 2 , ... de tal manera quefn:AnAARn=1,2,

(1) para todos x = ( x 1 , x 2 , , x n ) A n (una media se encuentra entre los extremos),min(x)fn(x)max(x)x=(x1,x2,,xn)An

(2) es invariante bajo permutaciones de sus argumentos (significa que no le importa el orden de los datos), yfn

(3) cada no disminuye en cada uno de sus argumentos (a medida que aumentan los números, su media no puede disminuir).fn

Nosotros debemos permitimos que es un subconjunto propio de los números reales (como todos los números positivos), porque un montón de medios, tales como medias geométricas, se definen únicamente en dichos subconjuntos.A

También podríamos querer agregar eso

(1 ') existe al menos algo de para el cual min ( x ) f n ( x ) max ( x ) (las medias no son extremas). (No podemos exigir que esto se mantenga siempre . Por ejemplo, la mediana de ( 0 , 0 , ... , 0 , 1 ) es igual a 0 , que es el mínimo).xAmin(x)fn(x)max(x)(0,0,,0,1)0

Estas propiedades parecen capturar la idea detrás de una "media" que es algún tipo de "valor medio" de un conjunto de datos (desordenados).

Axiomas de consistencia

Estoy más tentado a estipular el criterio de consistencia bastante menos obvio

(4.a) El rango de medida que t varía a lo largo del intervalo [ min ( x ) , max ( x ) ] incluye f n ( x ) . En otras palabras, siempre es posible dejar la media sin cambios adjuntando un valor apropiado tfn+1(t,x1,x2,,xn)t[min(x),max(x)]fn(x)ta un conjunto de datos. En conjunción con (3), implica que los valores extremos adyacentes a un conjunto de datos empujarán la media hacia esos extremos.

Si deseamos aplicar el concepto de media a una distribución o "población infinita", entonces una forma sería obtenerla en el límite de muestras aleatorias arbitrariamente grandes. Por supuesto, el límite puede no existir siempre (no existe para la media aritmética cuando la distribución no tiene expectativas, por ejemplo). Por lo tanto, no quiero imponer ningún axioma adicional para garantizar la existencia de tales límites, pero lo siguiente parece natural y útil:

(4.b) Siempre que está acotado y x n es una secuencia de muestras de una distribución F soportada en A , entonces el límite de f n ( x n ) existe casi con seguridad. Esto evita que la media "rebote" para siempre dentro de A incluso cuando los tamaños de muestra se hacen cada vez más grandes.AxnFAfn(xn)A

En la misma línea, podríamos reducir aún más la idea de un medio para insistir en que se convierta en un mejor estimador de la "ubicación" a medida que aumenta el tamaño de la muestra:

(4.c) Siempre que está acotada, entonces la varianza de la distribución de muestreo de f n ( X ( n ) ) para una muestra aleatoria X ( n ) = ( X 1 , X 2 , ... , X n ) de F es no decreciente en n .Afn(X(n))X(n)=(X1,X2,,Xn)Fn

Axioma de continuidad

Podríamos considerar pedir medios para variar "muy bien" con los datos:

(5) es por separado continuo en cada argumento (un pequeño cambio en los valores de los datos no debería inducir un salto repentino en su media).fn

Este requisito podría eliminar algunas generalizaciones extrañas, pero no descarta ningún medio bien conocido. Descartará algunas funciones de agregación.

Un axioma de invariancia

Podemos concebir los medios como aplicados a los datos de intervalo o relación (en el conocido sentido de Stevens). No podemos exigir que sea invariante bajo cambios de ubicación (la media geométrica no lo es), pero nosotros podemos requerir

(6) para todos xA n y todos λ > 0 para los cuales λ xA n . Esto solo dice que somos libres de calcular f n usando las unidades de medida que queramos.fn(λx)=λfn(x)xAnλ>0λxAnfn

Todos los medios mencionados en la pregunta satisfacen este axioma, excepto algunas funciones de agregación.


Discusión

Las funciones de agregación general , como se describe en la pregunta, no satisfacen necesariamente los axiomas (1 '), (2), (3), (5) o (6). Si satisfacen algún axioma de consistencia puede depender de cómo se extienden a n > 2 .f2n>2

La mediana de muestra habitual disfruta de todas estas propiedades axiomáticas.

Podríamos aumentar los axiomas de consistencia para incluir

(4.d) para todo xA n .f2n(x;x)=fn(x)xAn.

Esto implica que cuando todos los elementos de un conjunto de datos se repiten con la misma frecuencia, la media no cambia. Sin embargo, esto puede ser demasiado fuerte: la media Winsorizada no tiene esta propiedad (excepto asintóticamente). El propósito de Winsorizing al nivel de es proporcionar resistencia contra los cambios en al menos 100 α % de los datos en cualquier extremo. Por ejemplo, la media del 10% de Winsorized de ( 1 , 2 , 3 , 6 ) es la media aritmética de ( 2 , 2 , 3 , 3 )100α% 100α%(1,2,3,6)(2,2,3,3)2.5(1,1,2,2,3,3,6,6)3.5

No sé cuál de los axiomas de consistencia (4.a), (4.b) o (4.c) sería más deseable o útil. Parecen ser independientes: no creo que ninguno de los dos implique el tercero.

whuber
fuente
(+1) Creo que (1 '), "significa que no son extremos", es un punto interesante. Muchas definiciones naturales de la media incluyen el mínimo y el máximo como casos especiales o limitantes: esto es cierto para los medios de poder , Lehmer , Fréchet , Chisini y Stolarsky . ¡Aunque parece un poco extraño referirse a ellos como "promedio"!
Silverfish
Sí, los casos limitantes son inevitables. Pero para conjuntos de datos finitos, podemos insistir en que ni el máximo ni el mínimo califican como "medios".
whuber
On the other hand, not only is it true that "the usual sample median enjoys all these axiomatic properties", but so do the usual sample quantile (unless I've missed something). It also feels a bit odd to refer to e.g. the upper quartile as a "mean" (though I've seen it used as a measure of central tendency on very skewed data). If we accept all other quantiles, it no longer feels quite so perverse to admit minima and maxima. But I can certainly see it may be desirable to at least retain the right to exclude them.
Silverfish
1
I am not perturbed by the admission of quantiles into the pantheon of means. After all, for given families of distributions, certain non-median quantiles will coincide with arithmetic means, so you could be in trouble if you tried to eliminate this possibility axiomatically. (Consider a family of lognormal distributions of constant geometric SD, for instance.) If the arithmetic mean cannot qualify as a mean, all is lost!
whuber
1
He considerado ese enfoque y lo he rechazado, como se explica en mi respuesta: si aplica ese criterio para norte>2, eliminas la mediana como una forma de media!
whuber
2

Creo que la mediana puede considerarse un tipo de generalización de la media aritmética. Específicamente, la media aritmética y la mediana (entre otras) se pueden unificar como casos especiales de la media de Chisini. Si va a realizar alguna operación sobre un conjunto de valores, la media de Chisini es un número que puede sustituir por todos los valores originales del conjunto y aún así obtener el mismo resultado. Por ejemplo, si desea sumar sus valores, reemplazar todos los valores con la media aritmética producirá la misma suma. La idea es que cierto valor sea representativo de los números en el conjunto en el contexto de una determinada operación sobre esos números. (Una implicación interesante de esta forma de pensar es que un valor dado, la media aritmética, solo puede considerarse representativo bajo el supuesto de que está haciendo ciertas cosas con esos números).

This is less obvious for the median (and I note that the median is not listed as one of the Chisini means on Wolfram or Wikipedia), but if you were to allow operations over ranks, the median could fit within the same idea.

gung - Reinstate Monica
fuente
This is a very interesting suggestion. Could you suggest a suitable operation, so that for a median M we would have f(M,M,...,M)=f(x1,x2,...,xn)?
Silverfish
That's a good question, @Silverfish, I've been thinking about that ;-). My thinking is more that, in your Q & the discussion in comments, the conceptual framework seems to be how to get the mean & how to get the data back from the mean; OTOH, my framing is what we use the mean for: viz as a compressed representation of the data w/ the minimum information loss.
gung - Reinstate Monica
I've added some citations to the question which show a wider range of conceptual frameworks, including this one. At the moment I can't see a better f than "take the median", which doesn't quite seem within the spirit of the piece!
Silverfish
@Silverfish, I grant that does seem like a somewhat problematic hole in my position.
gung - Restablece a Monica
While the insight from Chisini's set-up is that, for example, the arithmetic mean preserves the sum, while the geometric mean preserves the product, it's still true (just less interesting) that the arithmetic mean of (x¯,x¯,...,x¯) is also x¯ and so on. So I'm not convinced it's a fatal blow.
Silverfish
-1

La pregunta no está bien definida. Si estamos de acuerdo con la definición común de "calle" de la media como la suma de n números divididos por n, entonces tenemos una participación en el terreno. Además, si observamos las medidas de tendencia central, podríamos decir que tanto la media como la mediana son realizaciones genéricas, pero no la una de la otra. Parte de mi experiencia es en parámetros no paramétricos, así que me gusta la mediana y la robustez que proporciona, la invariancia a la transformación monotónica y más. pero cada medida tiene su lugar según el objetivo.

Bob Clauss
fuente
2
Welcome to our site, Bob. I believe that if you read to the end of the question--especially the long penultimate paragraph--you will discover that it is precise and well-defined. (If not, it would be a good idea to explain what you mean by "not well defined.) Your comments don't really seem to address what is being asked.
whuber
1
I actually sympathise with Bob's feeling that the question is not terribly well-defined, in the sense that the concept of "mean" does not have a single definition, but I have tried my best to make things as clear as possible. I hope my most recent edit helps clarify things.
Silverfish
1
The reason I feel the question has some value other than mere terminology (what does mean mean anyway, and is there a definition we can stretch as far as to include the median?) is that it may be instructive to see the median as just one member of a family of generalizations of the mean; Nick Cox's example of the median as a limiting case of the trimmed mean is particularly nice - it ties in neatly with the "robustness" property you like. In the family of trimmed means, the "street" arithmetic mean and the median lie at opposite ends with a spectrum between them.
Silverfish