¿Por qué la mediana de edad es una mejor estadística que la media de edad?

41

texto alternativo

texto alternativo

Claramente, la mediana parece ser la estadística de elección cuando se trata de edades.

No puedo explicarme por qué la media aritmética sería una estadística peor. ¿Por que es esto entonces?

Originalmente publicado aquí porque no sabía que este sitio existía.

Lazer
fuente
44
¿Parece que ya tenía una respuesta razonable en el otro sitio?
Shane
1
@Shane: ¿Pero quizás diferentes sitios tienen el potencial de obtener diferentes respuestas desde diferentes puntos de vista?
whuber

Respuestas:

42

Las estadísticas no proporcionan una buena respuesta a esta pregunta, en mi opinión. Una media puede ser relevante en los estudios de mortalidad, por ejemplo, pero las edades no son tan fáciles de medir como podría pensar. Las personas mayores, las personas analfabetas y las personas en algunos países del tercer mundo tienden a redondear sus edades a un múltiplo de 5 o 10, por ejemplo.

La mediana es más resistente a tales errores que la media. Además, las edades medias suelen ser de 20 a 40 años, pero las personas pueden vivir hasta los 100 años o más (una proporción creciente y notable de la población de los países modernos ahora vive más allá de los 100). Las personas de esa edad tienen de 1,5 a 4 veces más influencia en la media que en la mediana en comparación con las personas muy jóvenes. Por lo tanto, la mediana es una estadística un poco más actualizada sobre la distribución de edad de un país y es un poco más independiente de las tasas de mortalidad y la esperanza de vida que la media.

Finalmente, la mediana nos da una idea un poco mejor de cómo se ve la distribución de edad en sí: cuando ve una mediana de 35, por ejemplo, sabe que la mitad de la población tiene más de 35 años y puede inferir algunas cosas sobre las tasas de natalidad, edades de los padres, y así sucesivamente; pero si la media es 35, no se puede decir tanto, porque esos 35 podrían estar influenciados por un gran aumento de población a los 70 años, por ejemplo, o tal vez una brecha poblacional en algún rango de edad debido a una vieja guerra o epidemia.

Por lo tanto, por razones demográficas, no estadísticas, una mediana parece más digna del papel de un valor ómnibus para resumir las edades de poblaciones relativamente grandes de personas.

whuber
fuente
1
Creo que quisiste decir "La mediana es más resistente a tales errores que la media". Sin embargo, estoy de acuerdo con sus comentarios, y creo que el censo de los EE. UU. Generalmente informa la mediana de muchas categorías en los informes oficiales (no solo la edad) básicamente por las mismas razones. Los ingresos son quizás incluso un mejor ejemplo que la edad para ilustrar tales puntos.
Andy W
Ha sustituido un hecho (la media es sensible a valores atípicos / distribuciones asimétricas) por una declaración de valor sobre la preferencia por la mediana sobre la media. En efecto, usted ha argumentado que la media no es preferible porque no es la mediana (al igual que aquellos que dicen que solo se debe usar la media en distribuciones simétricas, es decir, cuando la media y la mediana son iguales).
Alexis
1
@Alexis No sigo tus críticas. ¿Podrías dar más detalles? Después de todo, esta respuesta proporciona mucho más que "un hecho": contiene bastantes, junto con un análisis de sus implicaciones. ¿Y específicamente a qué "declaración de valor" se refiere?
Whuber
Mi preocupación es que las características objetivas de la media y la mediana (por ejemplo, la primera es sensible a los valores atípicos, a saber, "las personas de esa edad tienen una influencia de 1,5 a 4 veces mayor en la media que en la mediana en comparación con las personas muy jóvenes"). se traducen en valores sobre su valor, a saber, "la mediana nos da una imagen un poco mejor de cómo se ve la distribución por edades". El primero es un hecho, el segundo una valoración de ese hecho. Mi preocupación es el cambio entre los dos. Más: stats.stackexchange.com/questions/96371/…
Alexis
1
@Alexis Tenga en cuenta que esta pregunta no se trata del uso de la media o la mediana en general, sino de sus utilidades para evaluar las distribuciones de edad. Tenga en cuenta que desde el principio mi respuesta reconoce que no hay panacea: que la media es útil y relevante para fines específicos. No creo haber cometido el pecado del que me acusa, que es la vaga aplicación de "mejor": he estipulado cuidadosamente cómo difieren la mediana y la media en este contexto . Me parece que tienes un problema que azotar con respecto a los medios frente a las medianas, pero este no es el lugar para hacerlo.
whuber
16

John te dio una buena respuesta en el sitio hermano.

Un aspecto que no mencionó explícitamente es la robustez: la mediana como medida de ubicación central es mejor que la media, ya que tiene un punto de ruptura más alto (del 50%), mientras que la media tiene una muy baja de 0 (ver wikipedia para más detalles). )

Intuitivamente, significa que las malas observaciones individuales no sesgan la mediana mientras que lo hacen para la media.

Dirk Eddelbuettel
fuente
99
El desglose no es un problema para una estadística descriptiva de toda una población.
whuber
12

Aquí está mi respuesta publicada por primera vez en math.stackexchange:

La mediana es lo que muchas personas realmente tienen en mente cuando dicen "malo". Es más fácil interpretar la mediana: la mitad de la población está por encima de esta edad y la otra mitad está por debajo. La media es un poco más sutil.

Las personas buscan simetría y, a veces, imponen simetría cuando no existe. La distribución de edad en una población está lejos de ser simétrica, por lo que la media podría ser engañosa. Las distribuciones de edad son algo así como una pirámide. Muchos niños, no muchos ancianos. (O al menos así es como está en una especie de estado estable. En los EE. UU., La generación del baby boom posterior a la Segunda Guerra Mundial ha distorsionado esta distribución a medida que envejecen. Algunas personas han llamado a esto "cuadrar la pirámide" porque los boomers han hecho el parte superior de la pirámide más ancha de lo que ha sido en el pasado).

Con una distribución asimétrica, puede ser mejor informar la mediana porque es una estadística simétrica. La mediana es simétrica incluso si la distribución de muestreo no lo es.

John D. Cook
fuente
¿En qué sentido es la mediana una estadística "simétrica"? Ciertamente, no es el caso que las distribuciones tienden a distribuirse simétricamente sobre sus medianas (ni sobre sus medios). Si quiere decir simplemente lo que escribió en otro comentario de que "la mediana divide la población a la mitad" (que define la mediana), su argumento suena circular: ¡la mediana es buena porque la mediana es la mediana!
whuber
7

¿Por qué es mejor un hacha que un hacha?

Eso es similar a tu pregunta. Simplemente quieren decir y hacer cosas diferentes. Si se habla de medianas, entonces la historia que intentan transmitir, el modelo que intentan aplicar a los datos, es diferente de uno con medios.

John
fuente
4

Para un ejemplo concreto, considere las edades medias para el Congo (RDC) y Japón. Uno está devastado por la guerra civil, el otro está bien desarrollado con una población que envejece. La media no es terriblemente interesante para una comparación de manzanas con manzanas. Por otro lado, la mediana puede ser informativa como una medida de tendencia central ya que por definición tenemos la mitad arriba, la mitad abajo. El artículo de Wikipedia sobre la Pirámide de población podría ser esclarecedor (vea las secciones sobre el bulto juvenil, el envejecimiento de las poblaciones).

ars
fuente
3

Los repositorios de datos de salud pública en los Estados Unidos se están moviendo hacia una EDAD en formato de años de incrementos de cinco años debido al impacto de las regulaciones de HIPAA con respecto al cegamiento intencional y el enmascaramiento de datos por razones de privacidad personal.

Dado este desafío a lo que había sido en el pasado (antes de HIPAA), un elemento de datos de nivel de medida bastante basado en la diferencia entre la fecha de nacimiento y la fecha de fallecimiento, es posible que debamos reconsiderar la EDAD como una variable de escala que puede ser descrito paramétricamente en todos los conjuntos de datos de salud pública, a favor de los modelos que describen la EDAD de manera no paramétrica, como un nivel ordinal de medida. Sé que esto puede parecer "exagerado" para muchas facciones dentro de la comunidad de informática biomédica, pero esta idea puede tener algún mérito en términos de "interpretación" como se describe en los comentarios anteriores.

¿Qué pasa con todo el poder analítico que está disponible para los enfoques no paramétricos? Sí, es cierto que cada uno de nosotros casi universalmente intentará aplicar las técnicas GLM (modelo lineal general) a una variable que se nos presenta en distribuciones que se comportan como AGE.

Al mismo tiempo, se debe tener en cuenta la forma de esa distribución y cómo se determina esa forma mediante los efectos de interacción de múltiples dimensiones sobre los centroides multidimensionales y los centroides de subgrupos presentes en la distribución. ¿Qué hacer con estos conjuntos de datos muy complejos?

Cuando un elemento de datos no cumple con los "supuestos del modelo", escaneamos progresivamente (dije a través, no hacia abajo; deberíamos ser empleadores de método de igualdad de oportunidades, cada herramienta viene de fábrica con la forma y las reglas de función) de otros posibles modelos para encontrar los que "no fallan" las pruebas de supuestos.

En el formato actual en los conjuntos de datos de salud pública, realmente necesitamos (como comunidad de visualización de datos) crear un modelo más estándar para manejar la EDAD en incrementos de cinco años (5YI). Mi voto para la visualización de datos de AGE (dado el nuevo formato 5YI) es usar histogramas y diagramas de caja y bigotes. Sí, esto significa la mediana. (¡Sin juego de palabras!)

A veces, una imagen realmente vale más que mil palabras, y un resumen es un resumen de mil palabras. El diagrama de caja y bigotes muestra la "forma" de la distribución como una representación simbólica significativa del histograma a un nivel casi icónico de resolución. La comparación de las distribuciones de los incrementos de cinco años de edad al mostrar diagramas de cuadro y bigote "uno al lado del otro" en los que uno puede comparar visualmente instantáneamente los patrones de 75 a 50 (mediana) con 25 valores inferiores, sería un "estándar universal" elegante para comparar AGE a través de el mundo. Para aquellos de nosotros que seguimos disfrutando de la emoción de la representación de datos a través de la mecánica textual de la visualización tabular, el diagrama de "tallo y hoja" también puede ser útil cuando se emplea como un elemento gráfico visual animado en una "línea de chispa"

La edad ha alcanzado la mayoría de edad. Es necesario explorarlo más a fondo con los algoritmos computacionales más potentes que ahora están disponibles.

Richard E. Gilder
fuente
1
Esta es una publicación bien escrita, pero no parece tener ninguna conexión con la pregunta original.
Andy W
Creo que indirectamente, pero de manera apropiada, aborda la intención aparente de la pregunta, @Andy. La falla, si la hay, radica en la pregunta en sí, que es ambigua porque no especifica el sentido en que una media podría ser "peor" que una mediana. Por lo tanto, una buena respuesta tiene que explorar esto y considerar el propósito de resumir una distribución por edad con una sola estadística. Aquí, esto conduce naturalmente a una discusión sobre lo que podría significar una "edad" y qué tan apropiadamente comparar las distribuciones de edad.
whuber
3

No creo que haya una buena razón descriptiva para elegir la mediana sobre la media para las distribuciones de edad. Hay uno de practicidad al comparar los datos reportados.

Muchos países informan su población en intervalos de 5 años con la banda superior abierta. Esto causa algunas dificultades para calcular la media a partir de los intervalos, especialmente para el intervalo más joven (afectado por las tasas de mortalidad infantil), el "intervalo" superior (¿cuál es la media de un "intervalo" de más de 80?) Y los intervalos superiores cercanos ( la media de cada intervalo suele ser más baja que la del medio).

Es mucho más fácil estimar la mediana interpolando dentro del intervalo medio, a menudo aproximándose asumiendo una distribución de edad plana o de trapecio en ese intervalo (las tasas de mortalidad en muchos países son relativamente bajas alrededor de la edad media, lo que hace que esta sea una aproximación más razonable de lo que es es para jóvenes o viejos).

Enrique
fuente
3

Para dar una respuesta útil, la pregunta original requiere que sepamos la pregunta detrás de la pregunta. En otras palabras, "¿Por qué quieres algún tipo de estadística resumida que compare la distribución por edades de los diferentes países?" La mediana podría ser la más útil para algunas preguntas. La media podría ser la más útil para otros. Y probablemente haya preguntas en las que "el porcentaje por encima (o por debajo) de una edad en particular" sería la estadística más útil.

Emil Friedman
fuente
2

Aquí obtienes buenas respuestas, pero déjame agregar mis 2 centavos. Trabajo en farmacometría, que se ocupa de cosas como el volumen sanguíneo, la tasa de eliminación, el nivel básico del efecto del fármaco, el efecto máximo del fármaco y parámetros como ese.

Hacemos una distinción entre variables que pueden tomar cualquier valor más o menos, versus valores que solo pueden ser positivos. Un ejemplo de una variable que puede tomar cualquier valor, más o menos, sería el efecto del fármaco, que podría ser positivo, cero o negativo. Un ejemplo de una variable que solo puede ser realmente positiva es el volumen sanguíneo o la tasa de eliminación de drogas.

Modelamos estas cosas con distribuciones que generalmente son normales o logarítmicas normales, normales para las de cualquier valor, y lognormales para las únicas positivas. Un número lognormal es el número E llevado a la potencia de un número normalmente distribuido, y es por eso que solo puede ser positivo.

Para una variable normalmente distribuida, la mediana, la media y la moda son el mismo número, por lo que no importa cuál use. Sin embargo, para una variable distribuida lognormalmente, la media es mayor que la mediana y la moda, por lo que no es realmente muy útil. De hecho, la mediana es donde la normal subyacente tiene su media, por lo que es una medida mucho más atractiva.

Dado que la edad (presumiblemente) nunca puede ser negativa, una distribución lognormal es probablemente una mejor descripción de lo que es normal, por lo que la mediana (E a ​​la media de la normalidad subyacente) es más útil.

Mike Dunlavey
fuente
55
La distribución de la edad ciertamente no es logarítmica normal.
Rob Hyndman
1
No creo que se pueda inferir que la edad se distribuye normalmente por log solo por el hecho de que siempre es positiva. Las distribuciones gamma y Weibull también son siempre positivas, entonces, ¿por qué no elegirlas?
nico
@Rob: @nico: Estoy seguro de que tienes razón. Fue una mala elección de ejemplo. Por lo general, modelamos parámetros farmacométricos como volumen y aclaramiento.
Mike Dunlavey
2

Me han enseñado que la mediana debe usarse con rango y media con desviación estándar. Cuando hablamos de edad, creo que el rango es una forma más relevante de expresar la propagación y más fácil de entender para la mayoría. Por ejemplo, en una población de estudio, la edad media fue de 53 años (DE 5,4) o la edad media fue de 48 años (rango 23-77). Por esa razón, preferiría usar la mediana en lugar de la media. Pero me interesaría mucho aquí ¿qué diría un estadístico o un profesional de estadísticas sobre el uso de la media con el rango? Lo veo bastante en los artículos científicos.

Susanne
fuente
Bienvenido a CV, Susanne. Si ha publicado esto en un intento de obtener respuestas, elimínelo y vuelva a publicarlo como una nueva pregunta. La orientación sobre cómo usar este sitio está disponible en nuestro centro de ayuda .
whuber
1

La respuesta de John en math.stackexchange se puede ver de la siguiente manera:

Cuando tiene una distribución sesgada, la mediana puede ser una mejor estadística de resumen que la media.

Tenga en cuenta que cuando dice que hay más bebés que adultos, esencialmente sugiere que la distribución por edad es una distribución sesgada.


fuente
En realidad, creo que hoy en día el sesgo en muchos países es más hacia las personas mayores, no hacia los pequeños.
JM no es estadístico el
Tal vez, está sesgado a la inversa, pero el punto general se mantiene. Para distribuciones sesgadas, una mediana puede tener más sentido que la media.
Acabo de actualizar mi respuesta en math.stackexchange para enfatizar solo ese punto. Las personas buscan simetría y pueden imponer incorrectamente la simetría cuando no existe. Cuando informa la mediana, da una respuesta simétrica: la mediana divide a la población a la mitad, aunque la distribución no sea simétrica.
John D. Cook, el
Esta respuesta siempre me parece algo furtiva: cuando las distribuciones no son asimétricas (es decir, son simétricas), la media es igual a la mediana, por lo que decir que la mediana es "mejor" cuando la distribución es sesgada es una forma de decir "solo usar la mediana ".
Alexis
1

Espero que la edad media esté influenciada por los valores atípicos en su conjunto de datos, mientras que este no es el caso para una edad mediana. Tomemos un ejemplo de un conjunto de datos de pacientes vacunados: 1,2,3,4,4,5,6,6,6,78 años la media sería: 11.5 y la mediana de edad de estos pacientes es 4.5. esta edad media se ha visto afectada por el valor atípico 78. la mediana es la mejor cuando se trata de conjuntos de datos de la distribución sesgada.

Eustache
fuente
Vea mi respuesta al Usuario28.
Alexis
0

Ciertamente, en el caso del análisis demográfico, pensaría que tanto la media como la mediana serían valiosas, especialmente en combinación entre sí, si está buscando valores atípicos o áreas de crecimiento que puedan estar mal etiquetadas solo por la mediana. En comunidades con una gran comunidad de jubilados o en un área con una explosión en la tasa de natalidad, la mediana por sí sola puede no proporcionarle una imagen completa, y ahí es donde la media, en comparación, puede ser muy útil.

Matt L.
fuente