El concepto de "media" va mucho más allá de la media aritmética tradicional; ¿se estira tanto como para incluir la mediana? Por analogia,
La analogía que estoy dibujando es a la media cuasi-aritmética , dada por:
A modo de comparación, cuando decimos que la mediana de un conjunto de datos de cinco elementos es igual al tercer elemento, podemos ver que es equivalente a clasificar los datos de uno a cinco (lo que podríamos denotar con una función ); tomando la media de los datos transformados (que es tres); y volver a leer el valor del elemento de datos que tenía rango tres (una especie de ).
En los ejemplos de media geométrica, media armónica y RMS, era una función fija que se puede aplicar a cualquier número de forma aislada. Por el contrario, para asignar un rango o para volver de los rangos a los datos originales (interpolar cuando sea necesario) se requiere conocer todo el conjunto de datos. Además, en las definiciones que he leído de la media cuasiaritmética, se requiere que sea continua. ¿Se considera alguna vez la mediana como un caso especial de media cuasiaritmética y, de ser así, cómo se define la ? ¿O se describe alguna vez la mediana como una instancia de alguna otra noción más amplia de "media"? La media cuasi-aritmética ciertamente no es la única generalización disponible.
Parte del problema es terminológico (¿qué significa "significar" de todos modos, especialmente en contraste con "tendencia central" o "promedio")? Por ejemplo, en la literatura para los sistemas de control borroso , una función de agregación es una función creciente con y F (b, b) = b ; una función de agregación para la cual \ min (x, y) \ leq F (x, y) \ leq \ max (x, y) para todo x, y \ en [a, b] se llama "media" (en un sentido general). ¡No hace falta decir que esta definición es increíblemente amplia! Y en este contexto, la mediana se conoce como un tipo de media. ^ {[1]}Pero tengo curiosidad por saber si las caracterizaciones menos amplias de la media aún pueden extenderse lo suficiente como para abarcar la mediana: la llamada media generalizada (que podría describirse mejor como la "media de poder") y la media de Lehmer no, pero otros pueden . Para lo que vale, Wikipedia incluye "mediana" en su lista de "otros medios" , pero sin más comentarios o citas.
: Una definición tan amplia de media, adecuadamente extendida para más de dos entradas, parece estándar en el campo del control difuso y aparece muchas veces durante las búsquedas en Internet para casos de la mediana que se describe como mediana; Citaré, por ejemplo, Fodor, JC y Rudas, IJ (2009), " Sobre algunas clases de funciones de agregación que son migratorias ", IFSA / EUSFLAT Conf. (págs. 653-656). Por cierto, este artículo señala que uno de los primeros usuarios del término "media" ( moyenne ) fue Cauchy , en la Cours d'analyse de l'École royale polytechnique, 1ère partie; Analizar algébrique (1821). Contribuciones posteriores de Aczél , Chisini ,y de Finetti en el desarrollo de conceptos más generales de "media" que Cauchy son reconocidos en Fodor, J. y Roubens, M. (1995), " Sobre el significado de los medios ", Journal of Computational and Applied Mathematics , 64 (1), 103-115.
Respuestas:
Aquí hay una manera de considerar una mediana como un "tipo general de media": primero, defina cuidadosamente su media aritmética ordinaria en términos de estadísticas de orden:
Luego, al reemplazar ese promedio ordinario de estadísticas de pedidos con alguna otra función de peso, obtenemos una noción de "media generalizada" que explica el pedido.
En ese caso, una serie de posibles medidas de centro se convierten en "tipos de medios generalizados". En el caso de la mediana, para impar , w ( n + 1 ) / 2 = 1 y todos los demás son 0, y para par n , w nn w(n+1)/2=1 n .wn2=wn2+1=12
Del mismo modo, si observamos la estimación M, las estimaciones de ubicación también podrían considerarse como una generalización de la media aritmética (donde para la media, es cuadrática, ψ es lineal o la función de peso es plana), y la mediana cae también en esta clase de generalizaciones. Esta es una generalización algo diferente a la anterior.ρ ψ
Hay una variedad de otras formas en que podríamos extender la noción de 'media' que podría incluir la mediana.
fuente
Si piensa en la media como el punto que minimiza la función de pérdida cuadrática SSE, entonces la mediana es el punto que minimiza la función de pérdida lineal MAD, y el modo es el punto que minimiza alguna función de pérdida 0-1. No se requieren transformaciones.
Entonces, la mediana es un ejemplo de una media de Fréchet .
fuente
Una generalización fácil pero fructífera es a los medios ponderados , donde ∑ n i = 1 w i = 1 . Claramente, la media común o de jardín es el caso especial más simple con pesos iguales w i = 1 / n .∑ni=1wixi/∑ni=1wi, ∑ni=1wi=1 wi=1/n
Dejar que los pesos dependan del orden de los valores en magnitud, de menor a mayor, apunta a varios otros casos especiales, en particular la idea de una media recortada , que también se conoce con otros nombres.
Para evitar el uso excesivo de la notación donde no es necesaria o especialmente útil, imagine, por ejemplo, ignorar los valores más pequeños y más grandes y tomar la media (igualmente ponderada) de los demás. O imagine ignorar los dos más pequeños y los dos más grandes y tomar la media de los demás; Etcétera. El recorte más enérgico ignoraría todos menos uno o dos valores medios en orden, dependiendo de si el número de valores era par o impar, lo que naturalmente es solo la mediana familiar . Nada en la idea de recortar lo compromete a ignorar números iguales en cada cola de una muestra, pero decir más sobre el recorte asimétrico nos alejaría más de la idea principal en este hilo.
En resumen, los medios (no calificados) y las medianas son casos límite extremos de la familia de los medios recortados (simétricos). La idea general es permitir compromisos entre un ideal de usar toda la información en los datos y otro ideal de protegerse de puntos de datos extremos, que pueden ser valores atípicos poco confiables.
Vea la referencia aquí para una revisión bastante reciente.
fuente
La pregunta nos invita a caracterizar el concepto de "media" en un sentido lo suficientemente amplio como para abarcar todos los medios habituales: medios de poder, medios , medianas, medios recortados, pero no tan ampliamente que se vuelve casi inútil para el análisis de datos . Esta respuesta discute algunas de las propiedades axiomáticas que cualquier definición razonablemente útil de "media" debería tener.Lp
Axiomas Básicos
A útilmente amplia definición de "media" a los efectos de análisis de datos sería cualquier secuencia de, funciones deterministas bien definidos para A ⊂ R y n = 1 , 2 , ... de tal manera quefn:An→A A⊂R n=1,2,…
(1) para todos x = ( x 1 , x 2 , … , x n ) ∈ A n (una media se encuentra entre los extremos),min(x)≤fn(x)≤max(x) x=(x1,x2,…,xn)∈An
(2) es invariante bajo permutaciones de sus argumentos (significa que no le importa el orden de los datos), yfn
(3) cada no disminuye en cada uno de sus argumentos (a medida que aumentan los números, su media no puede disminuir).fn
Nosotros debemos permitimos que es un subconjunto propio de los números reales (como todos los números positivos), porque un montón de medios, tales como medias geométricas, se definen únicamente en dichos subconjuntos.A
También podríamos querer agregar eso
(1 ') existe al menos algo de para el cual min ( x ) ≠ f n ( x ) ≠ max ( x ) (las medias no son extremas). (No podemos exigir que esto se mantenga siempre . Por ejemplo, la mediana de ( 0 , 0 , ... , 0 , 1 ) es igual a 0 , que es el mínimo).x∈A min(x)≠fn(x)≠max(x) (0,0,…,0,1) 0
Estas propiedades parecen capturar la idea detrás de una "media" que es algún tipo de "valor medio" de un conjunto de datos (desordenados).
Axiomas de consistencia
Estoy más tentado a estipular el criterio de consistencia bastante menos obvio
(4.a) El rango de medida que t varía a lo largo del intervalo [ min ( x ) , max ( x ) ] incluye f n ( x ) . En otras palabras, siempre es posible dejar la media sin cambios adjuntando un valor apropiado tfn+1(t,x1,x2,…,xn) t [min(x),max(x)] fn(x) t a un conjunto de datos. En conjunción con (3), implica que los valores extremos adyacentes a un conjunto de datos empujarán la media hacia esos extremos.
Si deseamos aplicar el concepto de media a una distribución o "población infinita", entonces una forma sería obtenerla en el límite de muestras aleatorias arbitrariamente grandes. Por supuesto, el límite puede no existir siempre (no existe para la media aritmética cuando la distribución no tiene expectativas, por ejemplo). Por lo tanto, no quiero imponer ningún axioma adicional para garantizar la existencia de tales límites, pero lo siguiente parece natural y útil:
(4.b) Siempre que está acotado y x n es una secuencia de muestras de una distribución F soportada en A , entonces el límite de f n ( x n ) existe casi con seguridad. Esto evita que la media "rebote" para siempre dentro de A incluso cuando los tamaños de muestra se hacen cada vez más grandes.A xn F A fn(xn) A
En la misma línea, podríamos reducir aún más la idea de un medio para insistir en que se convierta en un mejor estimador de la "ubicación" a medida que aumenta el tamaño de la muestra:
(4.c) Siempre que está acotada, entonces la varianza de la distribución de muestreo de f n ( X ( n ) ) para una muestra aleatoria X ( n ) = ( X 1 , X 2 , ... , X n ) de F es no decreciente en n .A fn(X(n)) X(n)=(X1,X2,…,Xn) F n
Axioma de continuidad
Podríamos considerar pedir medios para variar "muy bien" con los datos:
(5) es por separado continuo en cada argumento (un pequeño cambio en los valores de los datos no debería inducir un salto repentino en su media).fn
Este requisito podría eliminar algunas generalizaciones extrañas, pero no descarta ningún medio bien conocido. Descartará algunas funciones de agregación.
Un axioma de invariancia
Podemos concebir los medios como aplicados a los datos de intervalo o relación (en el conocido sentido de Stevens). No podemos exigir que sea invariante bajo cambios de ubicación (la media geométrica no lo es), pero nosotros podemos requerir
(6) para todos x ∈ A n y todos λ > 0 para los cuales λ x ∈ A n . Esto solo dice que somos libres de calcular f n usando las unidades de medida que queramos.fn(λx)=λfn(x) x∈An λ>0 λx∈An fn
Todos los medios mencionados en la pregunta satisfacen este axioma, excepto algunas funciones de agregación.
Discusión
Las funciones de agregación general , como se describe en la pregunta, no satisfacen necesariamente los axiomas (1 '), (2), (3), (5) o (6). Si satisfacen algún axioma de consistencia puede depender de cómo se extienden a n > 2 .f2 n>2
La mediana de muestra habitual disfruta de todas estas propiedades axiomáticas.
Podríamos aumentar los axiomas de consistencia para incluir
(4.d) para todo x ∈ A n .f2n(x;x)=fn(x) x∈An.
Esto implica que cuando todos los elementos de un conjunto de datos se repiten con la misma frecuencia, la media no cambia. Sin embargo, esto puede ser demasiado fuerte: la media Winsorizada no tiene esta propiedad (excepto asintóticamente). El propósito de Winsorizing al nivel de es proporcionar resistencia contra los cambios en al menos 100 α % de los datos en cualquier extremo. Por ejemplo, la media del 10% de Winsorized de ( 1 , 2 , 3 , 6 ) es la media aritmética de ( 2 , 2 , 3 , 3 )100α% 100α% (1,2,3,6) (2,2,3,3) 2.5 (1,1,2,2,3,3,6,6) 3.5
No sé cuál de los axiomas de consistencia (4.a), (4.b) o (4.c) sería más deseable o útil. Parecen ser independientes: no creo que ninguno de los dos implique el tercero.
fuente
Creo que la mediana puede considerarse un tipo de generalización de la media aritmética. Específicamente, la media aritmética y la mediana (entre otras) se pueden unificar como casos especiales de la media de Chisini. Si va a realizar alguna operación sobre un conjunto de valores, la media de Chisini es un número que puede sustituir por todos los valores originales del conjunto y aún así obtener el mismo resultado. Por ejemplo, si desea sumar sus valores, reemplazar todos los valores con la media aritmética producirá la misma suma. La idea es que cierto valor sea representativo de los números en el conjunto en el contexto de una determinada operación sobre esos números. (Una implicación interesante de esta forma de pensar es que un valor dado, la media aritmética, solo puede considerarse representativo bajo el supuesto de que está haciendo ciertas cosas con esos números).
This is less obvious for the median (and I note that the median is not listed as one of the Chisini means on Wolfram or Wikipedia), but if you were to allow operations over ranks, the median could fit within the same idea.
fuente
La pregunta no está bien definida. Si estamos de acuerdo con la definición común de "calle" de la media como la suma de n números divididos por n, entonces tenemos una participación en el terreno. Además, si observamos las medidas de tendencia central, podríamos decir que tanto la media como la mediana son realizaciones genéricas, pero no la una de la otra. Parte de mi experiencia es en parámetros no paramétricos, así que me gusta la mediana y la robustez que proporciona, la invariancia a la transformación monotónica y más. pero cada medida tiene su lugar según el objetivo.
fuente