A menudo, los textos introductorios de estadística aplicada distinguen la media de la mediana (a menudo en el contexto de la estadística descriptiva y motivan el resumen de la tendencia central utilizando la media, la mediana y la moda) al explicar que la media es sensible a los valores atípicos en los datos de la muestra y / o para distribuciones de población sesgadas, y esto se usa como justificación para una afirmación de que la mediana es preferible cuando los datos no son simétricos.
Por ejemplo:
La mejor medida de tendencia central para un conjunto dado de datos a menudo depende de la forma en que se distribuyen los valores ... Cuando los datos no son simétricos, la mediana es a menudo la mejor medida de tendencia central. Debido a que la media es sensible a las observaciones extremas, se tira en la dirección de los valores de los datos periféricos y, como resultado, podría terminar excesivamente inflada o excesivamente desinflada. "
—Pagano y Gauvreau, (2000) Principios de Bioestadística , 2ª ed. (P&G estaban a la mano, por cierto, no los destacaban per se ).
Los autores definen la "tendencia central" así: "La característica más comúnmente investigada de un conjunto de datos es su centro, o el punto sobre el cual las observaciones tienden a agruparse".
Esto me parece una forma menos que directa de decir que solo use la mediana, punto , porque solo usar la media cuando los datos / distribuciones son simétricos es lo mismo que decir que solo use la media cuando es igual a la mediana. Editar: whuber señala acertadamente que estoy combinando medidas robustas de tendencia central con la mediana. Por lo tanto, es importante tener en cuenta que estoy discutiendo el marco específico de la media aritmética versus la mediana en las estadísticas introductorias aplicadas (donde, aparte del modo, otras medidas de tendencia central no están motivadas).
En lugar de juzgar la utilidad de la media por cuánto se aleja del comportamiento de la mediana, ¿no deberíamos simplemente entender esto como dos medidas diferentes de centralidad? En otras palabras, ser sensible a la asimetría es una característica de la media. Uno podría argumentar igualmente "bien, la mediana no es buena porque es en gran medida insensible a la asimetría, así que solo úsela cuando sea igual a la media".
(El modo es sensiblemente no involucrarse con esta pregunta).
Respuestas:
No estoy de acuerdo con el consejo como regla general. (No es común a todos los libros).
Los problemas son más sutiles.
Si realmente está interesado en hacer inferencia sobre la media de la población, la media de la muestra es al menos un estimador imparcial de la misma y tiene una serie de otras ventajas. De hecho, vea el teorema de Gauss-Markov : es el mejor lineal imparcial.
Si sus variables son muy asimétricas, el problema viene con 'lineal': en algunas situaciones, todos los estimadores lineales pueden ser malos, por lo que lo mejor de ellos puede no ser atractivo, por lo que un estimador de la media que no es lineal puede ser mejor , pero requeriría saber algo (o incluso bastante) sobre la distribución. No siempre tenemos ese lujo.
Si no está necesariamente interesado en la inferencia relacionada con la media de una población (" ¿cuál es una edad típica? ", Diga o si hay un cambio de ubicación más general de una población a otra, que podría expresarse en términos de cualquier ubicación, o incluso de una prueba de una variable que es estocásticamente más grande que otra), luego arrojar eso en términos de la media de la población no es necesario o probablemente contraproducente (en el último caso).
Así que creo que todo se reduce a pensar en:
¿Cuáles son tus preguntas reales? ¿La población significa incluso algo bueno para preguntar en esta situación?
¿Cuál es la mejor manera de responder a la pregunta dada la situación (asimetría en este caso)? ¿Usar muestra significa el mejor enfoque para responder nuestras preguntas de interés?
Puede ser que tenga preguntas que no sean directamente sobre los medios de población, pero sin embargo, los medios de muestra son una buena forma de ver esas preguntas ... o viceversa: la pregunta podría ser sobre los medios de población, pero los medios de muestra podrían no ser la mejor manera de responde esa pregunta.
fuente
En la vida real, deberíamos elegir una medida de tendencia central basada en lo que estamos tratando de descubrir; y sí, a veces el modo es lo correcto para usar. A veces es la media Winsorizada o recortada. A veces la media geométrica o armónica. A veces no hay una buena medida de tendencia central.
Los libros de introducción están mal escritos, enseñan que hay reglas de libros de cocina para aplicar.
Toma ingresos. Esto a menudo es muy sesgado y a veces tiene valores atípicos; Efectivamente, generalmente vemos "ingresos medios" informados. Pero a veces los valores atípicos y la asimetría son importantes. Depende del contexto y requiere pensamiento.
Escribí más sobre esto
fuente
Incluso cuando los datos son asimétricos (por ejemplo, los costos de atención médica calculados junto con un ensayo clínico, donde pocos pacientes totalizaron un costo cero porque mueren justo después de la inscripción, y pocos pacientes acumularon toneladas de costos debido a los efectos secundarios de un programa de atención médica bajo investigación ), se puede preferir la media a la mediana por al menos una razón práctica: multiplicar el costo promedio por el número de pacientes da a los responsables de la toma de decisiones de atención médica el impacto presupuestario de la tecnología de atención médica en estudio.
fuente
Creo que lo que falta en la pregunta, así como en las respuestas hasta ahora, es que la discusión de la media frente a la mediana en los libros introductorios de estadística generalmente ocurre al principio de un capítulo sobre cómo resumir numéricamente una distribución. A diferencia de las estadísticas inferenciales, generalmente se trata de producir estadísticas descriptivas que serían una forma útil de transmitir información sobre la distribución de los datos numéricamente en lugar de gráficamente. Los contextos en los que esto surge es la sección de estadísticas descriptivas de un informe o artículo de revista en la que generalmente no hay espacio para resúmenes gráficos de todas las variables en su conjunto de datos. Si la distribución está sesgada, parece sensato en este contexto elegir la mediana sobre la media. Si la distribución es simétrica sin valores atípicos,
fuente