Estoy trabajando en datos muy sesgados, así que estoy usando la mediana en lugar de la media para resumir la tendencia central. Me gustaría tener una medida de dispersión Si bien a menudo veo personas que informan media desviación estándar o mediana cuartiles para resumir la tendencia central, ¿está bien informar mediana mediana dispersión absoluta (MAD) ? ¿Hay problemas potenciales con este enfoque?
Este enfoque me resultaría más compacto e intuitivo que informar sobre los cuartiles inferior y superior, especialmente en tablas grandes llenas de figuras.
Respuestas:
Los cuartiles / cuantiles dan una idea mucho mejor de la distribución al costo de un número adicional - (4.9,5.0,1000000.0). Dudo que sea completamente una coincidencia que la asimetría sea el tercer momento y que parezca necesitar tres números / dimensiones para visualizar intuitivamente una distribución sesgada.
Dicho esto, no hay nada de malo en sí, solo estoy discutiendo intuiciones y legibilidad aquí. Si lo estás usando para ti o para tu equipo, enloquece. Pero creo que confundiría a un público amplio.
fuente
Usar el MAD equivale a suponer que la distribución subyacente es simétrica (las desviaciones por encima de la mediana y por debajo de la mediana se consideran igualmente). Si sus datos están sesgados, esto es claramente incorrecto: lo llevará a sobreestimar la verdadera variabilidad de sus datos.
Afortunadamente, puede elegir una de las varias alternativas a los locos que son igualmente robustas, casi tan fáciles de calcular y que no suponen simétrica.
Echa un vistazo a Rousseeuw y Croux 1992 . Estos conceptos están bien explicados aquí e implementados aquí . Estos dos estimadores son miembros de la llamada clase de estadísticas U, para lo cual existe una teoría bien desarrollada.
fuente
"En este trabajo se estudia un índice de asimetría más preciso. Específicamente, se propone el uso de la varianza izquierda y derecha y se introduce un índice de asimetría basado en ellos. Varios ejemplos demuestran su utilidad. La cuestión de evaluar con mayor precisión la dispersión de datos sobre el promedio emerge en todas las distribuciones de probabilidad no simétricas. Cuando la distribución de la población no es simétrica, el promedio y la varianza (o desviación estándar) de un conjunto de datos no proporcionan una idea precisa de la distribución de los datos, especialmente la forma y la simetría. Se argumenta que el promedio, la varianza izquierda propuesta (o la desviación estándar izquierda) y la varianza derecha (o la desviación estándar derecha) describen el conjunto de datos con mayor precisión ".
Enlace
fuente