¿Media

11

Estoy trabajando en datos muy sesgados, así que estoy usando la mediana en lugar de la media para resumir la tendencia central. Me gustaría tener una medida de dispersión Si bien a menudo veo personas que informan media desviación estándar± o mediana cuartiles± para resumir la tendencia central, ¿está bien informar mediana mediana dispersión absoluta (MAD)± ? ¿Hay problemas potenciales con este enfoque?

Este enfoque me resultaría más compacto e intuitivo que informar sobre los cuartiles inferior y superior, especialmente en tablas grandes llenas de figuras.

Mulone
fuente
3
Creo que la media, la mediana, los cuartiles inferior y superior conjuntamente describirían mejor los datos. Puede encontrar otras estadísticas descriptivas aquí .
1
Quiero ser lo más conciso posible: ¿está bien la mediana + 2 cuartiles?
Mulone
44
MAD es una buena estadística para expresar la dispersión de un lote de datos; es más resistente a los valores atípicos incluso que el rango intercuartil. Pero es posible que desee pensar en lo que significaría realmente la mediana MAD y cómo su audiencia debería interpretarlo. No disfruta de las mismas propiedades asintóticas o de desigualdad de Chebeyshev de media ± DE. Esa es, quizás, la razón por la cual rara vez se usan tales expresiones, si es que alguna vez se usan. ±±
whuber
1
Siempre pensé que MAD representaba la desviación media absoluta del análogo a mse, que es el error cuadrático medio. Es el promedio de las desviaciones absolutas de la media, no la mediana. ¿Estoy en lo cierto o me estoy volviendo loco?
Michael R. Chernick
2
la imagen es mil palabras, si es posible, mostrar histograma es muy poderoso.
bdeonovic

Respuestas:

7

±

±

Los cuartiles / cuantiles dan una idea mucho mejor de la distribución al costo de un número adicional - (4.9,5.0,1000000.0). Dudo que sea completamente una coincidencia que la asimetría sea el tercer momento y que parezca necesitar tres números / dimensiones para visualizar intuitivamente una distribución sesgada.

Dicho esto, no hay nada de malo en sí, solo estoy discutiendo intuiciones y legibilidad aquí. Si lo estás usando para ti o para tu equipo, enloquece. Pero creo que confundiría a un público amplio.

Patrick Caldon
fuente
2
(+1) Me gustaría agregar que la definición de asimetría en términos del tercer momento no es la más aceptada hoy en día porque solo se puede aplicar en distribuciones con colas ligeras. Las definiciones más modernas de asimetría se basan en cuantiles, algunos de ellos se pueden encontrar aquí .
1
@amoeba lo es? La página de Wikipedia para MAD lo define como Mediana (| Xi - Mediana (X) |), que es 0.1 con los datos proporcionados.
Upper_Case
@Upper_Case Gracias. Me equivoqué (olvidé 5-5 = 0 término). ¡Eliminaré mi comentario anterior para no confundir a futuros lectores!
ameba dice Reinstate Monica
4

Usar el MAD equivale a suponer que la distribución subyacente es simétrica (las desviaciones por encima de la mediana y por debajo de la mediana se consideran igualmente). Si sus datos están sesgados, esto es claramente incorrecto: lo llevará a sobreestimar la verdadera variabilidad de sus datos.

Afortunadamente, puede elegir una de las varias alternativas a los locos que son igualmente robustas, casi tan fáciles de calcular y que no suponen simétrica.

Echa un vistazo a Rousseeuw y Croux 1992 . Estos conceptos están bien explicados aquí e implementados aquí . Estos dos estimadores son miembros de la llamada clase de estadísticas U, para lo cual existe una teoría bien desarrollada.

usuario603
fuente
1

"En este trabajo se estudia un índice de asimetría más preciso. Específicamente, se propone el uso de la varianza izquierda y derecha y se introduce un índice de asimetría basado en ellos. Varios ejemplos demuestran su utilidad. La cuestión de evaluar con mayor precisión la dispersión de datos sobre el promedio emerge en todas las distribuciones de probabilidad no simétricas. Cuando la distribución de la población no es simétrica, el promedio y la varianza (o desviación estándar) de un conjunto de datos no proporcionan una idea precisa de la distribución de los datos, especialmente la forma y la simetría. Se argumenta que el promedio, la varianza izquierda propuesta (o la desviación estándar izquierda) y la varianza derecha (o la desviación estándar derecha) describen el conjunto de datos con mayor precisión ".

Enlace

deepML
fuente
3
Citó el resumen de un artículo y proporcionó algo parecido a una URL (me tomé la libertad de arreglar el enlace). Ese no es realmente el tipo de respuestas que estamos buscando aquí; Le recomiendo que edite su respuesta y que intente agregar algunos comentarios sobre por qué este enlace ayuda a responder la pregunta. La respuesta mejoraría mucho si explicara cómo este índice de asimetría se relaciona con la tendencia central media y la MAD.
MånsT