Si la media es tan sensible, ¿por qué usarla en primer lugar?

84

Es un hecho conocido que la mediana es resistente a los valores atípicos. Si ese es el caso, ¿cuándo y por qué usaríamos la media en primer lugar?

Una cosa que se me ocurre quizás es comprender la presencia de valores atípicos, es decir, si la mediana está lejos de la media, entonces la distribución está sesgada y tal vez los datos deben examinarse para decidir qué hacer con los valores atípicos. ¿Hay otros usos?

Leyenda
fuente
14
Con respecto a la primera pregunta, una nota lateral rápida: la media en estadísticas es solo el primer momento de una población , mientras que la mediana no lo es. Tratando de usar CLT, ley de grandes números, etc., nuevamente estás vinculado a la existencia de momentos finitos. Aunque tomando por ejemplo la distribución de Cauchy: la mediana existe, mientras que la media no;)
Dmitrij Celov
2
@Dmitrij Esa es una respuesta profunda y perspicaz. ¿Por qué no lo explicas en una respuesta?
whuber
Si no usaras la media, herirías sus sentimientos? (Lo siento, no pude resistir)
Daniel R Hicks
3
@Daniel R Hicks: Y eso es bastante malo, ¿verdad? (Lo siento, no pude resistirme tan bien).
Muhammad Alkarouri
3
Esta pregunta es mucho más interesante que la habitual: "¿Cómo es que no siempre usamos algoritmos robustos?" pregunta, pero puede tener el mismo pensamiento subyacente que "robusto == mágico" y si solo usáramos métodos robustos, no tendríamos que examinar nuestros datos, comprenderlos o preocuparnos por los diferentes tipos de problemas de precisión, ya que son "robusto". Aún así, +1.
Wayne

Respuestas:

113

2πn

Es interesante notar que para una medida de variación (dispersión, dispersión), hay un estimador muy robusto que es 0.98 tan eficiente como la desviación estándar, es decir, la diferencia de medias de Gini. Esta es la diferencia absoluta media entre dos observaciones cualesquiera. [Debe multiplicar la desviación estándar de la muestra por una constante para estimar la misma cantidad estimada por la diferencia de medias de Gini.] Una medida eficiente de la tendencia central es el estimador de Hodges-Lehmann, es decir, la mediana de todas las medias por pares. Lo usaríamos más si su interpretación fuera más simple.

Frank Harrell
fuente
13
+1 por mencionar el estimador de Hodges-Lehmann de tendencia central. En muchos aspectos, está entre la media y la mediana. Si fuera fácil de calcular en una muestra grande, sería más popular que la media o la mediana como una medida de ubicación, creo.
ttnphns
Por cierto, @Frank, ¿sabes qué distribución teórica de muestreo sigue el centro de Hodges-Lehmann? No lo hago, y me interesa.
ttnphns
16
Gracias por el comentario. Una sola línea en R puede calcular de manera eficiente hasta N = 5000: w <- outer(x, x, '+'); median(w[row(w) >= col(w)])/2. R podría llamar a un programa trivial de C, Fortran o Ratfor para que sea increíblemente rápido. El paquete ICSNP en R tiene una implementación bastante eficiente con su hl.locfunción. Para N = 5000 fue 2,66 veces más rápido que el código anterior (tiempo total de 1,5 segundos). Sería bueno también obtener un intervalo de confianza de manera eficiente.
Frank Harrell
SnQnσ
1
Estamos hablando de medidas de dispersión, por lo que la comparación de modelos no es un problema (y no confunda con el "Índice de Gini"). La diferencia media de Gini es una medida absoluta. Es más fácil de interpretar que las otras medidas. El hecho de que necesite calcular una constante diferente para cada distribución me dice que no queremos usar la constante.
Frank Harrell
36

Muchas respuestas excelentes ya, pero, dando un paso atrás y volviéndome un poco más básico, diría que es porque la respuesta que obtienes depende de la pregunta que hagas. La media y la mediana responden diferentes preguntas: a veces una es apropiada, a veces la otra.

Es simple decir que la mediana debe usarse cuando hay valores atípicos, o para distribuciones sesgadas, o lo que sea. Pero ese no es siempre el caso. Tome ingresos: casi siempre se informa con la mediana, y generalmente eso es correcto. Pero si observa el poder adquisitivo de toda una comunidad, puede que no sea correcto. Y en algunos casos, incluso el modo podría ser mejor (especialmente si los datos están agrupados).

Peter Flom - Restablece a Monica
fuente
8
+1 por el punto obvio que nadie más parecía abordar: son conceptos diferentes y responden preguntas diferentes. Además, en muchos casos, se pierde mucho al condensar toda la distribución en un número de resumen, por lo que a veces ambos hacen un mal trabajo.
Michael McGowan
25

Cuando un valor es basura para nosotros, lo llamamos "outliar" y queremos que el análisis sea robusto (y preferimos la mediana); cuando ese mismo valor es atractivo lo llamamos "extremo" y queremos que el análisis sea sensible a él (y preferimos la media). Dialéctica...

La media reacciona igualmente a un cambio de valor, independientemente de en qué parte de la distribución tiene lugar el cambio. Por ejemplo, en 1 2 3 4 5usted puede aumentar cualquier valor en 2: el aumento de la media será el mismo. La reacción de la mediana es menos "consistente": agregue 2 a los puntos de datos 4 o 5, y la mediana no aumentará; además de añadir 2 al punto 2 - de modo que el cambio es más de la media y la mediana cambia dramáticamente (en gran medida que la media va a cambiar).

La media siempre está exactamente ubicada. La mediana no es; por ejemplo, en conjunto, 1 2 3 4 cualquier valor entre 2 y 3 puede llamarse mediana. Por lo tanto, los análisis basados ​​en medianas no siempre son una solución única.

La media es un lugar geométrico de desviaciones mínimas de suma de cuadrados. Muchas tareas de optimización basadas en álgebra lineal (incluida la famosa regresión OLS) minimizan este error al cuadrado y, por lo tanto, implican el concepto de media. Mediana de un locus de suma mínima de desviaciones absolutas. Las técnicas de optimización para minimizar dicho error son no lineales y son más complejas / poco conocidas.

ttnphns
fuente
2
+1 Me preocupa un poco que el primer párrafo se malinterprete, ya que implica que la detección de valores atípicos es completamente un proceso subjetivo. Sin embargo, no creo que quieras decir eso.
whuber
8
+1 | Creo que la primera oración implica que la aplicación de la detección de valores atípicos es completamente subjetiva y, por lo tanto, voto por mantenerla como está.
John
2
Quise decir que la detección externa es un procedimiento riguroso con raíces filosóficas o morales subjetivas
ttnphns
3
@ttnphns, la ortografía "outliar" en lugar de "outlier" es intencional o no?
mpiktas
1
Error tipográfico involuntario
ttnphns
16

Hay muchas respuestas a esta pregunta. Aquí hay uno que probablemente no verá en otro lugar, así que lo incluyo aquí porque creo que es pertinente para el tema. La gente a menudo cree que debido a que la mediana se considera una medida robusta con respecto a los valores atípicos, también es robusta para casi todo. De hecho, también se considera robusto al sesgo en las distribuciones sesgadas. Estas dos propiedades robustas de la mediana a menudo se enseñan juntas. Uno podría notar que las distribuciones sesgadas subyacentes también tienden a generar pequeñas muestras que parecen tener valores atípicos y la sabiduría convencional es que uno usa medianas en tales situaciones.

#function to generate random values from a skewed distribution
rexg <- function (n, m, sig, tau) {
    rexp(n, rate = 1/tau) + rnorm(n, mean = m, sd = sig)
    }

(solo una demostración de que esto está sesgado y la forma básica)

hist(rexg(1e4, 0, 1, 1))

trama

Ahora, veamos qué sucede si tomamos muestras de esta distribución de varios tamaños de muestra y calculamos la mediana y la media para ver cuáles son las diferencias entre ellos.

#generate values with various n's
N <- 1e4
ns <- 2:30
y <- sapply(ns, function(x) mean(apply(matrix(rexg(x*N, 0, 1, 1), ncol = N), 2, median)))
plot(ns,y, type = 'l', ylim = c(0.85, 1.03), col = 'red') 
y <- sapply(ns, function(x) mean(colMeans(matrix(rexg(x*N, 0, 1, 1), ncol = N))))
lines(ns,y)

plot2

Como se puede ver en el gráfico anterior, la mediana (en rojo) es mucho más sensible a la n que la media. Esto es contrario a la sabiduría convencional sobre el uso de medianas con ns bajos, especialmente si la distribución puede estar sesgada. Y refuerza el punto de que la media es un valor conocido, mientras que la mediana es sensible a otras propiedades, una de las cuales es la n.

Este análisis es similar a Miller, J. (1988). Una advertencia sobre la mediana del tiempo de reacción. Journal of Experimental Psychology: Human Perception and Performance , 14 (3): 539–543.

REVISIÓN

Al pensar en el problema de sesgo, consideré que el impacto en la mediana podría deberse a que en muestras pequeñas tiene una mayor probabilidad de que la mediana se encuentre en la cola de la distribución, mientras que la media casi siempre estará ponderada por valores más cercanos a la modo. Por lo tanto, tal vez si uno solo estuviera muestreando con una probabilidad de valores atípicos, entonces tal vez se producirían los mismos resultados.

Así que pensé en situaciones en las que pueden ocurrir valores atípicos y los experimentadores pueden intentar eliminarlos.

Si los valores atípicos ocurrieron consistentemente, como uno en cada muestreo de datos, las medianas son sólidas contra el efecto de este valor atípico y la historia convencional sobre el uso de las medianas se mantiene.

Pero no suele ser así como van las cosas.

Uno podría encontrar un valor atípico en muy pocas celdas de un experimento y decidir usar la mediana en lugar de la media en este caso. Nuevamente, la mediana es más robusta pero su impacto real es relativamente pequeño porque hay muy pocos valores atípicos. Definitivamente, este sería un caso más común que el anterior, pero el efecto de usar una mediana probablemente sería tan pequeño que no importaría mucho.

Quizás los valores atípicos más comunes podrían ser un componente aleatorio de los datos. Por ejemplo, la media real y la desviación estándar de la población pueden ser aproximadamente 0, pero hay un porcentaje del tiempo en que tomamos muestras de una población atípica donde la media es 3. Considere la siguiente simulación, en la que se muestra una población de este tipo variando la muestra Talla.

#generate n samples N times with an outp probability of an outlier.
rout <- function (n, N, outp) {
    outPos <- sample(0:1,n*N, replace = TRUE, prob = c(1-outp,outp))
    numOutliers <- sum(outPos)
    y <- matrix( rnorm(N*n), ncol = N )
    y[which(outPos==1)] <- rnorm(numOutliers, 4)
    return(y)
    }

outp <- 0.1
N <- 1e4
ns <- 3:30
yMed <- sapply(ns, function(x) mean(apply(rout(x,N,outp), 2, median)))
var(yMed)
yM <- sapply(ns, function(x) mean(colMeans(rout(x,N,outp))))
var(yM)
plot(ns,yMed, type = 'l', ylim = range(c(yMed,yM)), ylab = 'Y', xlab = 'n', col = 'red') 
lines(ns,yM)

resultados

La mediana es en rojo y media en negro. Este es un hallazgo similar al de una distribución sesgada.

En un ejemplo relativamente práctico del uso de medianas para evitar los efectos de los valores atípicos, se pueden encontrar situaciones en las que la estimación se ve afectada por mucho más cuando se usa la mediana que cuando se usa la media.

John
fuente
Buen ejemplo, pero realmente depende de la distribución. Si usa una distribución normal o una distribución uniforme, el gráfico es muy diferente, con las dos líneas superpuestas. Es la distribución exponencial que produce la diferencia.
nico
1
-1 Esta respuesta confunde "sensibilidad" con "sesgo".
whuber
44
Mucho mejor; He eliminado el voto negativo. Pero estoy intrigado por la nueva explicación: ¿podría señalar alguna fuente, un texto, un documento o un sitio web, que realmente afirme que "[la mediana] también se considera sólida para sesgar las distribuciones sesgadas" y explica que significa eso No me he encontrado con tal reclamo antes y no estoy seguro de lo que realmente dice.
whuber
3
Es más conocimiento popular para lidiar con los tiempos de reacción (se sabe que está sesgado) en la investigación de psicología. Puse una referencia a un artículo que refuta la sabiduría popular en psicología (que me siento mal por no hacer referencia antes).
John
3
Por cierto, a pesar del artículo de Miller (1988), las personas todavía usan tiempos de reacción medios en estudios con manipulaciones de probabilidad donde las condiciones tienen diferentes números de muestras y la más baja suele ser bastante pequeña.
John
11
  • Por lo tanto, es fácil calcular la suma de todos los elementos, por ejemplo, si conoce el ingreso promedio de la población y el tamaño de la población, puede calcular de inmediato el ingreso total de toda la población.

  • La media es fácil de calcular en O(n)complejidad de tiempo. Calcular la mediana en tiempo lineal es posible pero requiere más reflexión. La solución obvia que requiere clasificación tiene una peor ( O(n log n)) complejidad de tiempo.

Y especulo que hay otra razón para que la media sea más popular que la mediana:

  • La media se enseña a más personas en la escuela y probablemente se enseñe antes de enseñar la mediana
Andre Holzner
fuente
Para su punto de complejidad de tiempo, depende de cómo se almacenan los valores. Si los valores ya están ordenados, entonces es posible calcular la mediana en O (1) peor complejidad de tiempo.
luiscubal
Estoy de acuerdo: su aplicabilidad en cálculos como sumas es una de las principales ventajas de la media. Si bien a menudo prefiero la mediana cuando el objetivo es describir algo, a menudo usamos la media cuando es una entrada para otro cálculo.
Jonathan
5

"Se sabe que la mediana es resistente a los valores atípicos. Si ese es el caso, ¿cuándo y por qué usaríamos la media en primer lugar?"

En los casos se sabe que no hay valores atípicos, por ejemplo, cuando se conoce el proceso de generación de datos (por ejemplo, en estadística matemática).

Uno debería señalar lo trivial, que estas dos cantidades (media y mediana) en realidad no miden lo mismo y que la mayoría de los usuarios piden la primera cuando lo que realmente deberían interesarles en la segunda (este punto está bien ilustrado por las pruebas de Wilcoxon basadas en la mediana, que se interpretan más fácilmente que las pruebas t).

Luego, están los casos en que, por alguna razón u otra casualidad, alguna regulación impone el uso de lo que quiere decir.

usuario603
fuente
2

Si la preocupación es sobre la presencia de valores atípicos, hay algunas formas directas de verificar sus datos.

Los valores atípicos, casi por definición, entran en nuestros datos cuando algo cambia, ya sea en el proceso que genera los datos o en el proceso de recopilación de datos. es decir, los datos dejan de ser homogéneos. Si sus datos no son homogéneos, ni la media ni la mediana tienen mucho sentido, ya que está tratando de estimar la tendencia central de dos conjuntos de datos separados que se han mezclado.

El mejor método para garantizar la homogeneidad es examinar los procesos de generación y recolección de datos para garantizar que todos sus datos provengan de un solo conjunto de procesos. Nada supera a un poco de poder mental, aquí.

Como verificación secundaria, puede recurrir a una de varias pruebas estadísticas: chi-cuadrado, prueba Q de Dixon, prueba de Grubb o la tabla de control / tabla de comportamiento del proceso (generalmente X-bar R o XmR). Mi experiencia es que, cuando sus datos se pueden ordenar tal como se recopilaron, los gráficos de comportamiento del proceso son mejores para detectar valores atípicos que las pruebas atípicas. Este uso para los gráficos puede ser algo controvertido, pero creo que es completamente consistente con la intención original de Shewhart y es un uso que Donald Wheeler defiende explícitamente . Ya sea que use las pruebas de valores atípicos o las tablas de comportamiento del proceso, recuerde que un "valor atípico" detectado es simplemente señal de potencialno homogeneidad que necesita ser examinada más a fondo. Rara vez tiene sentido tirar puntos de datos si no tienes alguna explicación de por qué eran valores atípicos.

Si está utilizando R, el paquete de valores atípicos proporciona las pruebas de valores atípicos, y para los gráficos de comportamiento del proceso está qcc , IQCC y qAnalyst. Tengo una preferencia personal por el uso y la salida del paquete qcc.

Tom
fuente
2

¿Cuándo podrías querer la media?

Ejemplos de finanzas:

  • El bono regresa:
    • El rendimiento medio de los bonos generalmente será de unos pocos puntos porcentuales.
    • El rendimiento medio de los bonos puede ser bajo o alto dependiendo de la tasa predeterminada y la recuperación en caso de incumplimiento. ¡La mediana ignorará todo esto!
    • Buena suerte explicando a sus inversores: "Sé que nuestro fondo ha caído un 40% este año porque casi la mitad son bonos quebraron sin recuperación, ¡pero nuestro bono promedio arrojó un 1%!"
  • Retornos de capital de riesgo:
    • Lo mismo a la inversa. La inversión mediana de VC o ángel es un fracaso, ¡y todo el rendimiento proviene de unos pocos ganadores! (Nota al margen / advertencia: las estimaciones de los retornos de capital de riesgo o de capital privado son muy problemáticas ... ¡tenga cuidado!)

Al formar una cartera diversificada, decidir en qué invertir y cuánto, es probable que la media y la covarianza de los rendimientos tengan un papel destacado en su problema de optimización.

Matthew Gunn
fuente
De acuerdo, pero parece que la media o la mediana no es el foco en ninguna de estas situaciones: es más bien que los totales pueden ser las cantidades clave. Naturalmente, eso implica a su vez que los medios serían mejores resúmenes que las medianas. Pero, dado que el retorno medio de los bonos puede ser una respuesta tonta, ¿alguien lo propone?
Nick Cox
@NickCox Dos comentarios. (1) ¡Que el retorno medio de los bonos es tonto es el punto! Hay una gran teoría en estas respuestas, pero pensé que un ejemplo extremadamente simple podría agregar algo de color. Para citar la respuesta de Frank, "la media se usa porque es sensible a los datos" y los rendimientos de la cartera dan una situación simple y comprensible en la que desearía eso. (2) La distinción entre preocuparse por el "total" y preocuparse por el "promedio" puede volverse bastante nebulosa. "¿Debo invertir en un fondo de cobertura?" Para responder eso, tal vez me gustaría saber, "¿cuál es el rendimiento promedio de los fondos de cobertura?"
Matthew Gunn el
1
(1) Estoy de acuerdo, como se dijo; mi pregunta es solo si la mediana se menciona seriamente en la literatura de enseñanza o investigación para este propósito. (2) No creo que mi punto sea nebuloso; Es una simple pregunta de lo que viene primero, es decir, es de interés principal en la práctica. Veo titulares "pandilla encarcelada por un total de 200 años" y sé por qué están impresos, pero es una forma extraña de resumir, sin embargo. Por el contrario, 200 muertos en una serie de desastres es primario, en lugar de 5 desastres con una media de 40 muertos en cada uno. El problema (pequeño) es elegir qué resumen es el más adecuado.
Nick Cox el
@NickCox Point tomado. Estoy de acuerdo en que le importa el total de sus propias inversiones. Sin embargo, cuando forme una cartera y decida las ponderaciones de la cartera en valores específicos, cuidará las propiedades del rendimiento de esa seguridad. No voy a comprar TODOS los bonos municipales, no me importa directamente el total, pero me importa cuál es el rendimiento promedio de un bono municipal. ¿Cuáles son las propiedades de riesgo / retorno si tuviera que agregar algunas a mi cartera?
Matthew Gunn el
Convenido. Ese es el territorio aquí.
Nick Cox