El enfoque común para estimar los parámetros de una distribución normal es usar la media y la desviación / varianza estándar de la muestra.
Sin embargo, si hay algunos valores atípicos, la mediana y la desviación media de la mediana deberían ser mucho más robustas, ¿verdad?
En algunos conjuntos de datos Probé, la distribución normal estimado por parece producir un ajuste mucho mejor que el clásico N ( μ , σ ) utilizando la media y la Desviación RMS.
¿Hay alguna razón para no usar la mediana si supone que hay algunos valores atípicos en el conjunto de datos? ¿Conoces alguna referencia para este enfoque? Una búsqueda rápida en Google no me encontró resultados útiles que discutan los beneficios del uso de medianas aquí (pero obviamente, la "mediana de estimación de parámetros de distribución normal" no es un conjunto muy específico de términos de búsqueda).
La desviación mediana, ¿está sesgada? ¿Debo multiplicarlo por para reducir el sesgo?
¿Conoces enfoques de estimación de parámetros robustos similares para otras distribuciones como la distribución Gamma o la distribución gaussiana modificada exponencialmente (que necesita sesgo en la estimación de parámetros, y los valores atípicos realmente confunden este valor)?
fuente
Respuestas:
La observación de que en un ejemplo que involucra datos extraídos de una distribución gaussiana contaminada, obtendría mejores estimaciones de los parámetros que describen la mayor parte de los datos al usar lugar de med | x - med ( x ) | donde mad ( x ) es:mad med|x−med(x)| mad(x)
- donde, es un factor de consistencia diseñado para asegurar que E ( mad ( x ) 2 ) = Var ( x ) cuando x no esté contaminado - fue hecho originalmente por Gauss (Walker , H. (1931)).(Φ−1(0.75))−1=1.4826
No se me ocurre ninguna razón para no usar la lugar de la media de la muestra en este caso. La menor eficiencia (¡en el gaussiano!) De los locos puede ser una razón para no usar a los locos en su ejemplo. Sin embargo, existen alternativas igualmente robustas y altamente eficientes para los locos . Uno de ellos es el Q nmed mad mad mad Qn . Este estimador tiene muchas otras ventajas además. También es muy insensible a los valores atípicos (de hecho, casi tan insensible como los locos). Al contrario de lo loco, no se basa en una estimación de ubicación y no supone que la distribución de la parte no contaminada de los datos sea simétrica. Al igual que el loco, se basa en estadísticas de pedidos, por lo que siempre está bien definido, incluso cuando la distribución subyacente de su muestra no tiene momentos. Al igual que el loco, tiene una forma explícita simple. Incluso más que para los locos, no veo razones para usar la desviación estándar de la muestra en lugar de la en el ejemplo que describe (consulte Rousseeuw y Croux 1993 para obtener más información sobre la Q n ).Qn Qn
y
y
Ver Chen y Rubin (1986) para una derivación completa.
fuente
Si, como usted afirma, los datos son normales, aparte de una pequeña proporción de valores atípicos, la mediana y la desviación absoluta mediana serán robustas a los errores graves, pero no harán un uso muy eficiente de la información en los datos no periféricos.
Si conociera algún límite a priori en la proporción de valores atípicos, podría recortar esa proporción para la media y Winsorizar la desviación estándar. Una alternativa que no requiere tal conocimiento sería usar estimadores M para la ubicación y cantidades relacionadas para la varianza. La ganancia en eficiencia si sus suposiciones son correctas (como que los datos realmente son normales, aparte de un pequeño porcentaje de valores atípicos) en algunas circunstancias puede ser sustancial.
fuente