- Si nos fijamos en Wolfram Alpha
- O esta página de Wikipedia Lista de países por edad promedio
Claramente, la mediana parece ser la estadística de elección cuando se trata de edades.
No puedo explicarme por qué la media aritmética sería una estadística peor. ¿Por que es esto entonces?
Originalmente publicado aquí porque no sabía que este sitio existía.
Respuestas:
Las estadísticas no proporcionan una buena respuesta a esta pregunta, en mi opinión. Una media puede ser relevante en los estudios de mortalidad, por ejemplo, pero las edades no son tan fáciles de medir como podría pensar. Las personas mayores, las personas analfabetas y las personas en algunos países del tercer mundo tienden a redondear sus edades a un múltiplo de 5 o 10, por ejemplo.
La mediana es más resistente a tales errores que la media. Además, las edades medias suelen ser de 20 a 40 años, pero las personas pueden vivir hasta los 100 años o más (una proporción creciente y notable de la población de los países modernos ahora vive más allá de los 100). Las personas de esa edad tienen de 1,5 a 4 veces más influencia en la media que en la mediana en comparación con las personas muy jóvenes. Por lo tanto, la mediana es una estadística un poco más actualizada sobre la distribución de edad de un país y es un poco más independiente de las tasas de mortalidad y la esperanza de vida que la media.
Finalmente, la mediana nos da una idea un poco mejor de cómo se ve la distribución de edad en sí: cuando ve una mediana de 35, por ejemplo, sabe que la mitad de la población tiene más de 35 años y puede inferir algunas cosas sobre las tasas de natalidad, edades de los padres, y así sucesivamente; pero si la media es 35, no se puede decir tanto, porque esos 35 podrían estar influenciados por un gran aumento de población a los 70 años, por ejemplo, o tal vez una brecha poblacional en algún rango de edad debido a una vieja guerra o epidemia.
Por lo tanto, por razones demográficas, no estadísticas, una mediana parece más digna del papel de un valor ómnibus para resumir las edades de poblaciones relativamente grandes de personas.
fuente
John te dio una buena respuesta en el sitio hermano.
Un aspecto que no mencionó explícitamente es la robustez: la mediana como medida de ubicación central es mejor que la media, ya que tiene un punto de ruptura más alto (del 50%), mientras que la media tiene una muy baja de 0 (ver wikipedia para más detalles). )
Intuitivamente, significa que las malas observaciones individuales no sesgan la mediana mientras que lo hacen para la media.
fuente
Aquí está mi respuesta publicada por primera vez en math.stackexchange:
La mediana es lo que muchas personas realmente tienen en mente cuando dicen "malo". Es más fácil interpretar la mediana: la mitad de la población está por encima de esta edad y la otra mitad está por debajo. La media es un poco más sutil.
Las personas buscan simetría y, a veces, imponen simetría cuando no existe. La distribución de edad en una población está lejos de ser simétrica, por lo que la media podría ser engañosa. Las distribuciones de edad son algo así como una pirámide. Muchos niños, no muchos ancianos. (O al menos así es como está en una especie de estado estable. En los EE. UU., La generación del baby boom posterior a la Segunda Guerra Mundial ha distorsionado esta distribución a medida que envejecen. Algunas personas han llamado a esto "cuadrar la pirámide" porque los boomers han hecho el parte superior de la pirámide más ancha de lo que ha sido en el pasado).
Con una distribución asimétrica, puede ser mejor informar la mediana porque es una estadística simétrica. La mediana es simétrica incluso si la distribución de muestreo no lo es.
fuente
¿Por qué es mejor un hacha que un hacha?
Eso es similar a tu pregunta. Simplemente quieren decir y hacer cosas diferentes. Si se habla de medianas, entonces la historia que intentan transmitir, el modelo que intentan aplicar a los datos, es diferente de uno con medios.
fuente
Para un ejemplo concreto, considere las edades medias para el Congo (RDC) y Japón. Uno está devastado por la guerra civil, el otro está bien desarrollado con una población que envejece. La media no es terriblemente interesante para una comparación de manzanas con manzanas. Por otro lado, la mediana puede ser informativa como una medida de tendencia central ya que por definición tenemos la mitad arriba, la mitad abajo. El artículo de Wikipedia sobre la Pirámide de población podría ser esclarecedor (vea las secciones sobre el bulto juvenil, el envejecimiento de las poblaciones).
fuente
Los repositorios de datos de salud pública en los Estados Unidos se están moviendo hacia una EDAD en formato de años de incrementos de cinco años debido al impacto de las regulaciones de HIPAA con respecto al cegamiento intencional y el enmascaramiento de datos por razones de privacidad personal.
Dado este desafío a lo que había sido en el pasado (antes de HIPAA), un elemento de datos de nivel de medida bastante basado en la diferencia entre la fecha de nacimiento y la fecha de fallecimiento, es posible que debamos reconsiderar la EDAD como una variable de escala que puede ser descrito paramétricamente en todos los conjuntos de datos de salud pública, a favor de los modelos que describen la EDAD de manera no paramétrica, como un nivel ordinal de medida. Sé que esto puede parecer "exagerado" para muchas facciones dentro de la comunidad de informática biomédica, pero esta idea puede tener algún mérito en términos de "interpretación" como se describe en los comentarios anteriores.
¿Qué pasa con todo el poder analítico que está disponible para los enfoques no paramétricos? Sí, es cierto que cada uno de nosotros casi universalmente intentará aplicar las técnicas GLM (modelo lineal general) a una variable que se nos presenta en distribuciones que se comportan como AGE.
Al mismo tiempo, se debe tener en cuenta la forma de esa distribución y cómo se determina esa forma mediante los efectos de interacción de múltiples dimensiones sobre los centroides multidimensionales y los centroides de subgrupos presentes en la distribución. ¿Qué hacer con estos conjuntos de datos muy complejos?
Cuando un elemento de datos no cumple con los "supuestos del modelo", escaneamos progresivamente (dije a través, no hacia abajo; deberíamos ser empleadores de método de igualdad de oportunidades, cada herramienta viene de fábrica con la forma y las reglas de función) de otros posibles modelos para encontrar los que "no fallan" las pruebas de supuestos.
En el formato actual en los conjuntos de datos de salud pública, realmente necesitamos (como comunidad de visualización de datos) crear un modelo más estándar para manejar la EDAD en incrementos de cinco años (5YI). Mi voto para la visualización de datos de AGE (dado el nuevo formato 5YI) es usar histogramas y diagramas de caja y bigotes. Sí, esto significa la mediana. (¡Sin juego de palabras!)
A veces, una imagen realmente vale más que mil palabras, y un resumen es un resumen de mil palabras. El diagrama de caja y bigotes muestra la "forma" de la distribución como una representación simbólica significativa del histograma a un nivel casi icónico de resolución. La comparación de las distribuciones de los incrementos de cinco años de edad al mostrar diagramas de cuadro y bigote "uno al lado del otro" en los que uno puede comparar visualmente instantáneamente los patrones de 75 a 50 (mediana) con 25 valores inferiores, sería un "estándar universal" elegante para comparar AGE a través de el mundo. Para aquellos de nosotros que seguimos disfrutando de la emoción de la representación de datos a través de la mecánica textual de la visualización tabular, el diagrama de "tallo y hoja" también puede ser útil cuando se emplea como un elemento gráfico visual animado en una "línea de chispa"
La edad ha alcanzado la mayoría de edad. Es necesario explorarlo más a fondo con los algoritmos computacionales más potentes que ahora están disponibles.
fuente
No creo que haya una buena razón descriptiva para elegir la mediana sobre la media para las distribuciones de edad. Hay uno de practicidad al comparar los datos reportados.
Muchos países informan su población en intervalos de 5 años con la banda superior abierta. Esto causa algunas dificultades para calcular la media a partir de los intervalos, especialmente para el intervalo más joven (afectado por las tasas de mortalidad infantil), el "intervalo" superior (¿cuál es la media de un "intervalo" de más de 80?) Y los intervalos superiores cercanos ( la media de cada intervalo suele ser más baja que la del medio).
Es mucho más fácil estimar la mediana interpolando dentro del intervalo medio, a menudo aproximándose asumiendo una distribución de edad plana o de trapecio en ese intervalo (las tasas de mortalidad en muchos países son relativamente bajas alrededor de la edad media, lo que hace que esta sea una aproximación más razonable de lo que es es para jóvenes o viejos).
fuente
Para dar una respuesta útil, la pregunta original requiere que sepamos la pregunta detrás de la pregunta. En otras palabras, "¿Por qué quieres algún tipo de estadística resumida que compare la distribución por edades de los diferentes países?" La mediana podría ser la más útil para algunas preguntas. La media podría ser la más útil para otros. Y probablemente haya preguntas en las que "el porcentaje por encima (o por debajo) de una edad en particular" sería la estadística más útil.
fuente
Aquí obtienes buenas respuestas, pero déjame agregar mis 2 centavos. Trabajo en farmacometría, que se ocupa de cosas como el volumen sanguíneo, la tasa de eliminación, el nivel básico del efecto del fármaco, el efecto máximo del fármaco y parámetros como ese.
Hacemos una distinción entre variables que pueden tomar cualquier valor más o menos, versus valores que solo pueden ser positivos. Un ejemplo de una variable que puede tomar cualquier valor, más o menos, sería el efecto del fármaco, que podría ser positivo, cero o negativo. Un ejemplo de una variable que solo puede ser realmente positiva es el volumen sanguíneo o la tasa de eliminación de drogas.
Modelamos estas cosas con distribuciones que generalmente son normales o logarítmicas normales, normales para las de cualquier valor, y lognormales para las únicas positivas. Un número lognormal es el número E llevado a la potencia de un número normalmente distribuido, y es por eso que solo puede ser positivo.
Para una variable normalmente distribuida, la mediana, la media y la moda son el mismo número, por lo que no importa cuál use. Sin embargo, para una variable distribuida lognormalmente, la media es mayor que la mediana y la moda, por lo que no es realmente muy útil. De hecho, la mediana es donde la normal subyacente tiene su media, por lo que es una medida mucho más atractiva.
Dado que la edad (presumiblemente) nunca puede ser negativa, una distribución lognormal es probablemente una mejor descripción de lo que es normal, por lo que la mediana (E a la media de la normalidad subyacente) es más útil.
fuente
Me han enseñado que la mediana debe usarse con rango y media con desviación estándar. Cuando hablamos de edad, creo que el rango es una forma más relevante de expresar la propagación y más fácil de entender para la mayoría. Por ejemplo, en una población de estudio, la edad media fue de 53 años (DE 5,4) o la edad media fue de 48 años (rango 23-77). Por esa razón, preferiría usar la mediana en lugar de la media. Pero me interesaría mucho aquí ¿qué diría un estadístico o un profesional de estadísticas sobre el uso de la media con el rango? Lo veo bastante en los artículos científicos.
fuente
La respuesta de John en math.stackexchange se puede ver de la siguiente manera:
Tenga en cuenta que cuando dice que hay más bebés que adultos, esencialmente sugiere que la distribución por edad es una distribución sesgada.
fuente
Espero que la edad media esté influenciada por los valores atípicos en su conjunto de datos, mientras que este no es el caso para una edad mediana. Tomemos un ejemplo de un conjunto de datos de pacientes vacunados: 1,2,3,4,4,5,6,6,6,78 años la media sería: 11.5 y la mediana de edad de estos pacientes es 4.5. esta edad media se ha visto afectada por el valor atípico 78. la mediana es la mejor cuando se trata de conjuntos de datos de la distribución sesgada.
fuente
Ciertamente, en el caso del análisis demográfico, pensaría que tanto la media como la mediana serían valiosas, especialmente en combinación entre sí, si está buscando valores atípicos o áreas de crecimiento que puedan estar mal etiquetadas solo por la mediana. En comunidades con una gran comunidad de jubilados o en un área con una explosión en la tasa de natalidad, la mediana por sí sola puede no proporcionarle una imagen completa, y ahí es donde la media, en comparación, puede ser muy útil.
fuente