La Sección 1.7.2 de Descubriendo Estadísticas Usando R por Andy Fields, et all, mientras enumera las virtudes de la media frente a la mediana, establece:
... la media tiende a ser estable en diferentes muestras.
Esto después de explicar las muchas virtudes de la mediana, por ej.
... La mediana no se ve afectada por puntajes extremos en ninguno de los extremos de la distribución ...
Dado que la mediana no se ve afectada por las puntuaciones extremas, habría pensado que sería más estable en todas las muestras. Así que me sorprendió la afirmación de los autores. Para confirmar, ejecuté una simulación: generé 1M de números aleatorios y tomé muestras de 100 números 1000 veces y calculé la media y la mediana de cada muestra y luego calculé el SD de esas medias y medianas de muestra.
nums = rnorm(n = 10**6, mean = 0, sd = 1)
hist(nums)
length(nums)
means=vector(mode = "numeric")
medians=vector(mode = "numeric")
for (i in 1:10**3) { b = sample(x=nums, 10**2); medians[i]= median(b); means[i]=mean(b) }
sd(means)
>> [1] 0.0984519
sd(medians)
>> [1] 0.1266079
p1 <- hist(means, col=rgb(0, 0, 1, 1/4))
p2 <- hist(medians, col=rgb(1, 0, 0, 1/4), add=T)
Como puede ver, los medios están más estrechamente distribuidos que las medianas.
En la imagen adjunta, el histograma rojo es para medianas, como puede ver, es menos alto y tiene una cola más gruesa, lo que también confirma la afirmación del autor.
¡Sin embargo, estoy asombrado por esto! ¿Cómo puede la mediana que es más estable tiende a variar más entre las muestras? Parece paradójico! Cualquier idea sería apreciada.
rnorm
conrcauchy
.Respuestas:
La mediana es máximamente robusta a los valores atípicos, pero altamente susceptible al ruido. Si introduce una pequeña cantidad de ruido en cada punto, entrará en la mediana sin amortiguar siempre que el ruido sea lo suficientemente pequeño como para no cambiar el orden relativo de los puntos. Por cierto, es al revés. El ruido se promedia, pero un solo valor atípico puede cambiar la media arbitrariamente.
Su prueba mide principalmente la robustez frente al ruido, pero puede crear fácilmente una donde la mediana funcione mejor. Si desea un estimador que sea robusto tanto para los valores atípicos como para el ruido, simplemente deseche el tercio superior e inferior y promedie el resto.
fuente
Como @whuber y otros han dicho, la declaración no es cierta en general. Y si estás dispuesto a ser más intuitivo, no puedo seguir el ritmo de los geeks matemáticos profundos por aquí, podrías ver otras maneras en que la media y la mediana son estables o no. Para estos ejemplos, suponga un número impar de puntos para que pueda mantener mis descripciones consistentes y simples.
Imagine que tiene una extensión de puntos en una recta numérica. Ahora imagine que toma todos los puntos por encima del centro y los mueve hasta 10 veces sus valores. La mediana no ha cambiado, la media se movió significativamente. Entonces la mediana parece más estable.
Ahora imagine que estos puntos están bastante extendidos. Mueva el punto central hacia arriba y hacia abajo. Un movimiento de una unidad cambia la mediana en uno, pero apenas mueve la media. La mediana ahora parece menos estable y más sensible a pequeños movimientos de un solo punto.
Ahora imagine tomar el punto más alto y moverlo suavemente desde el punto más alto al más bajo. La media también se moverá suavemente. Pero la mediana no se moverá continuamente: no se moverá en absoluto hasta que su punto más alto sea más bajo que la mediana anterior, luego comenzará a seguir el punto hasta que vaya por debajo del siguiente punto, luego la mediana se mantendrá en ese punto y nuevamente no No te muevas mientras continúas moviendo tu punto hacia abajo. [Editado por comentario]
Entonces, las diferentes transformaciones de sus puntos hacen que la media o la mediana se vean menos suaves o estables en algún sentido. Los expertos en matemáticas aquí le han mostrado distribuciones de las que puede probar, que se asemejan más a su experimento, pero es de esperar que esta intuición también ayude.
fuente
[1, 3, 5, 7, 9]
. Inicialmente la mediana es5
. Esa seguirá siendo la mediana hasta que el quinto punto (inicialmente9
) caiga por debajo5
, en ese punto la mediana seguirá suavemente el quinto punto a medida que disminuya, hasta que golpee3
, en ese punto la mediana se mantendrá3
. Entonces, aunque el punto que define la mediana es "saltar" (desde el tercer punto, hasta el quinto punto, hasta el segundo punto), el valor real de la mediana no tiene salto / discontinuidad.Por lo tanto tenemos:
fuente
Comentario: solo para hacer eco de su simulación, utilizando una distribución para la cual las SD de medios y medianas tienen el resultado opuesto:
Específicamente,
nums
ahora son de una distribución de Laplace (también llamada 'doble exponencial'), que puede simularse como la diferencia de dos distribuciones exponenciales con la misma tasa (aquí la tasa predeterminada 1). [Quizás vea Wikipedia en distribuciones de Laplace.]Nota: Otra posibilidad fácil, mencionada explícitamente en el enlace de @ whuber, es Cauchy, que puede simularse como distribución t de Student con un grado de libertad
rt(10^6, 1)
. Sin embargo, sus colas son tan pesadas que hacer un buen histograma es problemático.fuente