Es un hecho conocido que la mediana es resistente a los valores atípicos. Si ese es el caso, ¿cuándo y por qué usaríamos la media en primer lugar?
Una cosa que se me ocurre quizás es comprender la presencia de valores atípicos, es decir, si la mediana está lejos de la media, entonces la distribución está sesgada y tal vez los datos deben examinarse para decidir qué hacer con los valores atípicos. ¿Hay otros usos?
mathematical-statistics
mean
median
Leyenda
fuente
fuente
Respuestas:
Es interesante notar que para una medida de variación (dispersión, dispersión), hay un estimador muy robusto que es 0.98 tan eficiente como la desviación estándar, es decir, la diferencia de medias de Gini. Esta es la diferencia absoluta media entre dos observaciones cualesquiera. [Debe multiplicar la desviación estándar de la muestra por una constante para estimar la misma cantidad estimada por la diferencia de medias de Gini.] Una medida eficiente de la tendencia central es el estimador de Hodges-Lehmann, es decir, la mediana de todas las medias por pares. Lo usaríamos más si su interpretación fuera más simple.
fuente
w <- outer(x, x, '+'); median(w[row(w) >= col(w)])/2
. R podría llamar a un programa trivial de C, Fortran o Ratfor para que sea increíblemente rápido. El paquete ICSNP en R tiene una implementación bastante eficiente con suhl.loc
función. Para N = 5000 fue 2,66 veces más rápido que el código anterior (tiempo total de 1,5 segundos). Sería bueno también obtener un intervalo de confianza de manera eficiente.Muchas respuestas excelentes ya, pero, dando un paso atrás y volviéndome un poco más básico, diría que es porque la respuesta que obtienes depende de la pregunta que hagas. La media y la mediana responden diferentes preguntas: a veces una es apropiada, a veces la otra.
Es simple decir que la mediana debe usarse cuando hay valores atípicos, o para distribuciones sesgadas, o lo que sea. Pero ese no es siempre el caso. Tome ingresos: casi siempre se informa con la mediana, y generalmente eso es correcto. Pero si observa el poder adquisitivo de toda una comunidad, puede que no sea correcto. Y en algunos casos, incluso el modo podría ser mejor (especialmente si los datos están agrupados).
fuente
Cuando un valor es basura para nosotros, lo llamamos "outliar" y queremos que el análisis sea robusto (y preferimos la mediana); cuando ese mismo valor es atractivo lo llamamos "extremo" y queremos que el análisis sea sensible a él (y preferimos la media). Dialéctica...
La media reacciona igualmente a un cambio de valor, independientemente de en qué parte de la distribución tiene lugar el cambio. Por ejemplo, en
1 2 3 4 5
usted puede aumentar cualquier valor en 2: el aumento de la media será el mismo. La reacción de la mediana es menos "consistente": agregue 2 a los puntos de datos 4 o 5, y la mediana no aumentará; además de añadir 2 al punto 2 - de modo que el cambio es más de la media y la mediana cambia dramáticamente (en gran medida que la media va a cambiar).La media siempre está exactamente ubicada. La mediana no es; por ejemplo, en conjunto,
1 2 3 4
cualquier valor entre 2 y 3 puede llamarse mediana. Por lo tanto, los análisis basados en medianas no siempre son una solución única.La media es un lugar geométrico de desviaciones mínimas de suma de cuadrados. Muchas tareas de optimización basadas en álgebra lineal (incluida la famosa regresión OLS) minimizan este error al cuadrado y, por lo tanto, implican el concepto de media. Mediana de un locus de suma mínima de desviaciones absolutas. Las técnicas de optimización para minimizar dicho error son no lineales y son más complejas / poco conocidas.
fuente
Hay muchas respuestas a esta pregunta. Aquí hay uno que probablemente no verá en otro lugar, así que lo incluyo aquí porque creo que es pertinente para el tema. La gente a menudo cree que debido a que la mediana se considera una medida robusta con respecto a los valores atípicos, también es robusta para casi todo. De hecho, también se considera robusto al sesgo en las distribuciones sesgadas. Estas dos propiedades robustas de la mediana a menudo se enseñan juntas. Uno podría notar que las distribuciones sesgadas subyacentes también tienden a generar pequeñas muestras que parecen tener valores atípicos y la sabiduría convencional es que uno usa medianas en tales situaciones.
(solo una demostración de que esto está sesgado y la forma básica)
Ahora, veamos qué sucede si tomamos muestras de esta distribución de varios tamaños de muestra y calculamos la mediana y la media para ver cuáles son las diferencias entre ellos.
Como se puede ver en el gráfico anterior, la mediana (en rojo) es mucho más sensible a la n que la media. Esto es contrario a la sabiduría convencional sobre el uso de medianas con ns bajos, especialmente si la distribución puede estar sesgada. Y refuerza el punto de que la media es un valor conocido, mientras que la mediana es sensible a otras propiedades, una de las cuales es la n.
Este análisis es similar a Miller, J. (1988). Una advertencia sobre la mediana del tiempo de reacción. Journal of Experimental Psychology: Human Perception and Performance , 14 (3): 539–543.
REVISIÓN
Al pensar en el problema de sesgo, consideré que el impacto en la mediana podría deberse a que en muestras pequeñas tiene una mayor probabilidad de que la mediana se encuentre en la cola de la distribución, mientras que la media casi siempre estará ponderada por valores más cercanos a la modo. Por lo tanto, tal vez si uno solo estuviera muestreando con una probabilidad de valores atípicos, entonces tal vez se producirían los mismos resultados.
Así que pensé en situaciones en las que pueden ocurrir valores atípicos y los experimentadores pueden intentar eliminarlos.
Si los valores atípicos ocurrieron consistentemente, como uno en cada muestreo de datos, las medianas son sólidas contra el efecto de este valor atípico y la historia convencional sobre el uso de las medianas se mantiene.
Pero no suele ser así como van las cosas.
Uno podría encontrar un valor atípico en muy pocas celdas de un experimento y decidir usar la mediana en lugar de la media en este caso. Nuevamente, la mediana es más robusta pero su impacto real es relativamente pequeño porque hay muy pocos valores atípicos. Definitivamente, este sería un caso más común que el anterior, pero el efecto de usar una mediana probablemente sería tan pequeño que no importaría mucho.
Quizás los valores atípicos más comunes podrían ser un componente aleatorio de los datos. Por ejemplo, la media real y la desviación estándar de la población pueden ser aproximadamente 0, pero hay un porcentaje del tiempo en que tomamos muestras de una población atípica donde la media es 3. Considere la siguiente simulación, en la que se muestra una población de este tipo variando la muestra Talla.
La mediana es en rojo y media en negro. Este es un hallazgo similar al de una distribución sesgada.
En un ejemplo relativamente práctico del uso de medianas para evitar los efectos de los valores atípicos, se pueden encontrar situaciones en las que la estimación se ve afectada por mucho más cuando se usa la mediana que cuando se usa la media.
fuente
Por lo tanto, es fácil calcular la suma de todos los elementos, por ejemplo, si conoce el ingreso promedio de la población y el tamaño de la población, puede calcular de inmediato el ingreso total de toda la población.
La media es fácil de calcular en
O(n)
complejidad de tiempo. Calcular la mediana en tiempo lineal es posible pero requiere más reflexión. La solución obvia que requiere clasificación tiene una peor (O(n log n)
) complejidad de tiempo.Y especulo que hay otra razón para que la media sea más popular que la mediana:
fuente
"Se sabe que la mediana es resistente a los valores atípicos. Si ese es el caso, ¿cuándo y por qué usaríamos la media en primer lugar?"
En los casos se sabe que no hay valores atípicos, por ejemplo, cuando se conoce el proceso de generación de datos (por ejemplo, en estadística matemática).
Uno debería señalar lo trivial, que estas dos cantidades (media y mediana) en realidad no miden lo mismo y que la mayoría de los usuarios piden la primera cuando lo que realmente deberían interesarles en la segunda (este punto está bien ilustrado por las pruebas de Wilcoxon basadas en la mediana, que se interpretan más fácilmente que las pruebas t).
Luego, están los casos en que, por alguna razón u otra casualidad, alguna regulación impone el uso de lo que quiere decir.
fuente
Si la preocupación es sobre la presencia de valores atípicos, hay algunas formas directas de verificar sus datos.
Los valores atípicos, casi por definición, entran en nuestros datos cuando algo cambia, ya sea en el proceso que genera los datos o en el proceso de recopilación de datos. es decir, los datos dejan de ser homogéneos. Si sus datos no son homogéneos, ni la media ni la mediana tienen mucho sentido, ya que está tratando de estimar la tendencia central de dos conjuntos de datos separados que se han mezclado.
El mejor método para garantizar la homogeneidad es examinar los procesos de generación y recolección de datos para garantizar que todos sus datos provengan de un solo conjunto de procesos. Nada supera a un poco de poder mental, aquí.
Como verificación secundaria, puede recurrir a una de varias pruebas estadísticas: chi-cuadrado, prueba Q de Dixon, prueba de Grubb o la tabla de control / tabla de comportamiento del proceso (generalmente X-bar R o XmR). Mi experiencia es que, cuando sus datos se pueden ordenar tal como se recopilaron, los gráficos de comportamiento del proceso son mejores para detectar valores atípicos que las pruebas atípicas. Este uso para los gráficos puede ser algo controvertido, pero creo que es completamente consistente con la intención original de Shewhart y es un uso que Donald Wheeler defiende explícitamente . Ya sea que use las pruebas de valores atípicos o las tablas de comportamiento del proceso, recuerde que un "valor atípico" detectado es simplemente señal de potencialno homogeneidad que necesita ser examinada más a fondo. Rara vez tiene sentido tirar puntos de datos si no tienes alguna explicación de por qué eran valores atípicos.
Si está utilizando R, el paquete de valores atípicos proporciona las pruebas de valores atípicos, y para los gráficos de comportamiento del proceso está qcc , IQCC y qAnalyst. Tengo una preferencia personal por el uso y la salida del paquete qcc.
fuente
¿Cuándo podrías querer la media?
Ejemplos de finanzas:
Al formar una cartera diversificada, decidir en qué invertir y cuánto, es probable que la media y la covarianza de los rendimientos tengan un papel destacado en su problema de optimización.
fuente