¿Debería usarse la media cuando los datos están sesgados?

14

A menudo, los textos introductorios de estadística aplicada distinguen la media de la mediana (a menudo en el contexto de la estadística descriptiva y motivan el resumen de la tendencia central utilizando la media, la mediana y la moda) al explicar que la media es sensible a los valores atípicos en los datos de la muestra y / o para distribuciones de población sesgadas, y esto se usa como justificación para una afirmación de que la mediana es preferible cuando los datos no son simétricos.

Por ejemplo:

La mejor medida de tendencia central para un conjunto dado de datos a menudo depende de la forma en que se distribuyen los valores ... Cuando los datos no son simétricos, la mediana es a menudo la mejor medida de tendencia central. Debido a que la media es sensible a las observaciones extremas, se tira en la dirección de los valores de los datos periféricos y, como resultado, podría terminar excesivamente inflada o excesivamente desinflada. "
—Pagano y Gauvreau, (2000) Principios de Bioestadística , 2ª ed. (P&G estaban a la mano, por cierto, no los destacaban per se ).

Los autores definen la "tendencia central" así: "La característica más comúnmente investigada de un conjunto de datos es su centro, o el punto sobre el cual las observaciones tienden a agruparse".

Esto me parece una forma menos que directa de decir que solo use la mediana, punto , porque solo usar la media cuando los datos / distribuciones son simétricos es lo mismo que decir que solo use la media cuando es igual a la mediana. Editar: whuber señala acertadamente que estoy combinando medidas robustas de tendencia central con la mediana. Por lo tanto, es importante tener en cuenta que estoy discutiendo el marco específico de la media aritmética versus la mediana en las estadísticas introductorias aplicadas (donde, aparte del modo, otras medidas de tendencia central no están motivadas).

En lugar de juzgar la utilidad de la media por cuánto se aleja del comportamiento de la mediana, ¿no deberíamos simplemente entender esto como dos medidas diferentes de centralidad? En otras palabras, ser sensible a la asimetría es una característica de la media. Uno podría argumentar igualmente "bien, la mediana no es buena porque es en gran medida insensible a la asimetría, así que solo úsela cuando sea igual a la media".

(El modo es sensiblemente no involucrarse con esta pregunta).

Alexis
fuente
3
Personalmente, me gusta incluir ambas medidas, media y mediana, que le darán al lector no solo información sobre la tendencia central, sino también una idea de cuán sesgados son los datos.
bdeonovic
1
Algún contexto y aclaraciones mejorarían esta pregunta. (1) ¿En qué contexto estos textos de introducción (hipotéticos) afirman que se debe preferir la media y con qué propósito? (2) Exactamente, ¿cómo están estos textos "juzgando la utilidad de la media por cuánto se aleja del comportamiento de la mediana"? ¿Podría proporcionar un ejemplo o una cita para que podamos entender mejor?
Whuber
2
En un punto, malinterpretas: la mediana no es la única estadística que es robusta para algunas observaciones extremas. Por lo tanto, la media se indica sobre la base de una característica (a menudo) indeseable y no mediante comparación con la mediana. Pero también tengo un atisbo de su preocupación, y tal vez esté relacionado con la combinación implícita de asimetría y la existencia de valores atípicos que ocurre en esta cita. Lamentablemente está mal concebido, porque aunque tener valores atípicos a veces implica asimetría, lo contrario a menudo no es cierto.
whuber
77
Los lectores aquí encontrarán el siguiente hilo de interés: si la media es tan sensible, ¿por qué usarla en primer lugar?
gung - Restablece a Monica
2
A la luz de la definición dada para "tendencia central", parece claro por qué la media no sería una medida útil en presencia de sesgos o valores atípicos. ¡Si realmente quieres estimar o no esta noción de tendencia central parece ser otro asunto!
jsk

Respuestas:

16

No estoy de acuerdo con el consejo como regla general. (No es común a todos los libros).

Los problemas son más sutiles.

Si realmente está interesado en hacer inferencia sobre la media de la población, la media de la muestra es al menos un estimador imparcial de la misma y tiene una serie de otras ventajas. De hecho, vea el teorema de Gauss-Markov : es el mejor lineal imparcial.

Si sus variables son muy asimétricas, el problema viene con 'lineal': en algunas situaciones, todos los estimadores lineales pueden ser malos, por lo que lo mejor de ellos puede no ser atractivo, por lo que un estimador de la media que no es lineal puede ser mejor , pero requeriría saber algo (o incluso bastante) sobre la distribución. No siempre tenemos ese lujo.

Si no está necesariamente interesado en la inferencia relacionada con la media de una población (" ¿cuál es una edad típica? ", Diga o si hay un cambio de ubicación más general de una población a otra, que podría expresarse en términos de cualquier ubicación, o incluso de una prueba de una variable que es estocásticamente más grande que otra), luego arrojar eso en términos de la media de la población no es necesario o probablemente contraproducente (en el último caso).

Así que creo que todo se reduce a pensar en:

  • ¿Cuáles son tus preguntas reales? ¿La población significa incluso algo bueno para preguntar en esta situación?

  • ¿Cuál es la mejor manera de responder a la pregunta dada la situación (asimetría en este caso)? ¿Usar muestra significa el mejor enfoque para responder nuestras preguntas de interés?

Puede ser que tenga preguntas que no sean directamente sobre los medios de población, pero sin embargo, los medios de muestra son una buena forma de ver esas preguntas ... o viceversa: la pregunta podría ser sobre los medios de población, pero los medios de muestra podrían no ser la mejor manera de responde esa pregunta.

Glen_b -Reinstate a Monica
fuente
14

En la vida real, deberíamos elegir una medida de tendencia central basada en lo que estamos tratando de descubrir; y sí, a veces el modo es lo correcto para usar. A veces es la media Winsorizada o recortada. A veces la media geométrica o armónica. A veces no hay una buena medida de tendencia central.

Los libros de introducción están mal escritos, enseñan que hay reglas de libros de cocina para aplicar.

Toma ingresos. Esto a menudo es muy sesgado y a veces tiene valores atípicos; Efectivamente, generalmente vemos "ingresos medios" informados. Pero a veces los valores atípicos y la asimetría son importantes. Depende del contexto y requiere pensamiento.

Escribí más sobre esto

Peter Flom - Restablece a Monica
fuente
2
Peter, muchas gracias por el enlace a tu publicación. Deseo que los textos introductorios tomen las 1 o 2 páginas de espacio necesarias para proporcionar una consideración tan atenta como la que usted proporcionó allí.
Alexis
44
No he escrito uno pero quiero insertar una pequeña defensa de los textos introductorios. Cualquier texto introductorio que intentara dar una visión completamente matizada que los profesionales experimentados reconocerían como tal sería criticado por casi todos los destinatarios previstos; de hecho, ni siquiera se publicaría.
Nick Cox
55
Un comentario sustantivo: cuando los valores son aditivos de tal manera que los totales tienen (por ejemplo) sentido físico, la media es un resumen natural independientemente de la distribución de los valores individuales.
Nick Cox
3
@ NickCox Creo que los textos introductorios pueden ser mucho mejores que ellos. Para la media frente a la mediana, ni siquiera es un argumento matemático, es sustantivo. Los textos introductorios deben decirle a la persona que los lee que no están realmente calificados para hacer análisis de datos.
Peter Flom - Restablece a Monica
2
@jsk. Oh ok Creo que deben contarse explícitamente en las estadísticas porque muchas personas parecen pensar que están listas después de un curso en análisis de datos; de hecho, en muchos campos (psicología, sociología, medicina, etc.) se espera que las personas hagan análisis de datos después de solo 1, 2 o, a veces, 3 cursos. En los programas de doctorado, por ejemplo, se espera que escriban disertaciones. ¿Por qué es más obvio en otros campos? No estoy seguro.
Peter Flom - Restablece a Monica
6

Incluso cuando los datos son asimétricos (por ejemplo, los costos de atención médica calculados junto con un ensayo clínico, donde pocos pacientes totalizaron un costo cero porque mueren justo después de la inscripción, y pocos pacientes acumularon toneladas de costos debido a los efectos secundarios de un programa de atención médica bajo investigación ), se puede preferir la media a la mediana por al menos una razón práctica: multiplicar el costo promedio por el número de pacientes da a los responsables de la toma de decisiones de atención médica el impacto presupuestario de la tecnología de atención médica en estudio.

Carlo Lazzaro
fuente
Haciéndose eco del comentario de Carlo: si está interesado en un total de la población (por ejemplo, en el muestreo de auditoría), entonces está interesado en el período medio. Si no hace ninguna diferencia cuán sesgada o atípica es la distribución, solo tiene que lidiar con ella. No puede Winsorize, recortar, de lo contrario eliminar valores atípicos, o log transform. La estratificación puede ayudar mucho; en el caso de valores atípicos extremos, deben hacerse como estratos en sí mismos.
Peter Westfall
3

Creo que lo que falta en la pregunta, así como en las respuestas hasta ahora, es que la discusión de la media frente a la mediana en los libros introductorios de estadística generalmente ocurre al principio de un capítulo sobre cómo resumir numéricamente una distribución. A diferencia de las estadísticas inferenciales, generalmente se trata de producir estadísticas descriptivas que serían una forma útil de transmitir información sobre la distribución de los datos numéricamente en lugar de gráficamente. Los contextos en los que esto surge es la sección de estadísticas descriptivas de un informe o artículo de revista en la que generalmente no hay espacio para resúmenes gráficos de todas las variables en su conjunto de datos. Si la distribución está sesgada, parece sensato en este contexto elegir la mediana sobre la media. Si la distribución es simétrica sin valores atípicos,

jsk
fuente
1
Su punto sobre estadística descriptiva versus inferencial vale la pena. Pero usted está diciendo efectivamente (para estadísticas descriptivas) "solo use la media cuando sea igual a la mediana". Si la distribución es sesgada, entonces la mediana hace un mal trabajo al representar el concepto de per cápita , ¿verdad? Entonces, ¿no es tan válido tomar la posición de "solo usar la mediana cuando es igual a la media?" Eso es igual de arbitrario, y parece desviar la atención del significado sustantivo de estas medidas (para las personas que las aprenden).
Alexis
1
¿El objetivo no es representar el concepto de per cápita? ¿Dice quién? ¿Por qué presuponer que ese no es el objetivo?
Alexis
1
No veo ninguna grosería o "actuar conmocionado" proveniente del OP ... solo digo ...
Nick Stauner
1
No veo que importe si está haciendo estadísticas inferenciales o descriptivas en este caso. Si la medida descriptiva apropiada de la tendencia central es la mediana, entonces se deben hacer inferencias acerca de la mediana; si la media, entonces la media. Si ninguna medida descriptiva tiene sentido, entonces tampoco ninguna medida inferencial tendrá sentido.
Peter Flom - Restablece a Monica
1
@PeterFlom ¿Qué pasa en los casos en que el objetivo final no es la inferencia? Estoy de acuerdo en que la idoneidad de una estadística descriptiva depende completamente de la razón para producir la estadística. La noción de que es posible que "ninguna medida descriptiva tenga sentido" parece implicar que una estadística descriptiva no puede ser inherentemente significativa. Yo diría que en casi todos los casos, la mediana tiene sentido como una medida del centro de la distribución por definición. Si tiene sentido o no para otros fines es otra cuestión.
jsk