Parámetros de estimación de una distribución normal: ¿mediana en lugar de media?

El enfoque común para estimar los parámetros de una distribución normal es usar la media y la desviación / varianza estándar de la muestra.

Sin embargo, si hay algunos valores atípicos, la mediana y la desviación media de la mediana deberían ser mucho más robustas, ¿verdad?

En algunos conjuntos de datos Probé, la distribución normal estimado por parece producir un ajuste mucho mejor que el clásico utilizando la media y la Desviación RMS. $\mathcal{N}(\text{median}(x), \text{median}|x - \text{median}(x)|)$ $\mathcal{N}(\hat\mu, \hat\sigma)$

¿Hay alguna razón para no usar la mediana si supone que hay algunos valores atípicos en el conjunto de datos? ¿Conoces alguna referencia para este enfoque? Una búsqueda rápida en Google no me encontró resultados útiles que discutan los beneficios del uso de medianas aquí (pero obviamente, la "mediana de estimación de parámetros de distribución normal" no es un conjunto muy específico de términos de búsqueda).

La desviación mediana, ¿está sesgada? ¿Debo multiplicarlo por para reducir el sesgo? $\frac{n-1}{n}$

¿Conoces enfoques de estimación de parámetros robustos similares para otras distribuciones como la distribución Gamma o la distribución gaussiana modificada exponencialmente (que necesita sesgo en la estimación de parámetros, y los valores atípicos realmente confunden este valor)?

normal-distribution estimation outliers robust unbiased-estimator Erich Schubert
fuente

Si tiene valores atípicos, es posible que su distribución no sea realmente normal gaussiana. Esto no responde a su pregunta, por supuesto, pero, en mi opinión, esta es una posibilidad que uno siempre debe entretener.

sds

No tengo una distribución matemática simple, limpia. Tengo datos reales, que son desordenados por naturaleza. Ninguna distribución será perfecta, porque ya no puede manejar la situación analíticamente. Y los valores atípicos son en realidad mi interés. :-)

Erich Schubert

Respuestas:

La observación de que en un ejemplo que involucra datos extraídos de una distribución gaussiana contaminada, obtendría mejores estimaciones de los parámetros que describen la mayor parte de los datos al usar lugar de donde es: $\text{mad}$ $\text{med}|x-\text{med}(x)|$ $\text{mad}(x)$

mad = 1.4826 \times med | x - med (x) |

$\text{mad}=1.4826\times\text{med}|x-\text{med}(x)|$

- donde, es un factor de consistencia diseñado para asegurar que cuando no esté contaminado - fue hecho originalmente por Gauss (Walker , H. (1931)). $(\Phi^{-1}(0.75))^{-1}=1.4826$

E (mad (x)^{2}) = Var (x)

$\text{E}(\text{mad}(x)^2)=\text{Var}(x)$

x

$x$

No se me ocurre ninguna razón para no usar la lugar de la media de la muestra en este caso. La menor eficiencia (¡en el gaussiano!) De los puede ser una razón para no usar a los en su ejemplo. Sin embargo, existen alternativas igualmente robustas y altamente eficientes para los . Uno de ellos es el $\text{med}$ $\text{mad}$ $\text{mad}$ $\text{mad}$ $Q_n$ . Este estimador tiene muchas otras ventajas además. También es muy insensible a los valores atípicos (de hecho, casi tan insensible como los locos). Al contrario de lo loco, no se basa en una estimación de ubicación y no supone que la distribución de la parte no contaminada de los datos sea simétrica. Al igual que el loco, se basa en estadísticas de pedidos, por lo que siempre está bien definido, incluso cuando la distribución subyacente de su muestra no tiene momentos. Al igual que el loco, tiene una forma explícita simple. Incluso más que para los locos, no veo razones para usar la desviación estándar de la muestra en lugar de la en el ejemplo que describe (consulte Rousseeuw y Croux 1993 para obtener más información sobre la ). $Q_n$ $Q_n$

$x\sim\Gamma(\nu,\lambda)$

med (x) \approx λ (ν - 1 / 3)

$\text{med}(x)\approx\lambda(\nu-1/3)$

mad (x) \approx λ \sqrt{ν}

$\text{mad}(x)\approx\lambda\sqrt{\nu}$

$\nu>1.5$

\hat{ν} = {(\frac{med (x)}{mad (x)})}^{2}

$\hat{\nu}=\left(\frac{\text{med}(x)}{\text{mad}(x)}\right)^2$

\hat{λ} = \frac{mad (x)^{2}}{med (x)}

$\hat{\lambda}=\frac{\text{mad}(x)^2}{\text{med}(x)}$

Ver Chen y Rubin (1986) para una derivación completa.

J. Chen y H. Rubin, 1986. Límites para la diferencia entre la mediana y la media de las distribuciones de Gamma y Poisson, Statist. Probab Lett., 4, 281–283.
PJ Rousseeuw y C. Croux, 1993. Alternativas al Median Absolute Deviation Journal de la American Statistical Association, vol. 88, núm. 424, págs. 1273-1283
Walker, H. (1931). Estudios en la historia del método estadístico. Baltimore, MD: Williams & Wilkins Co. págs. 24-25.

usuario603
fuente

Φ^{- 1} (0.75)^{- 1} \approx 1.4826

$\Phi^{-1}(0.75)^{-1} \approx 1.4826$

@ErichSchubert: tienes razón: olvidé el segundo inverso ... corregido.

user603

n / (n - 1)

$n/(n-1)$

@whuber: gracias por esto, ahora me doy cuenta de que mi frase 'esto es similar en espíritu ' puede ser fácilmente mal interpretada. Lo quité.

user603

Hice de la parte ExNormal una pregunta por separado: stats.stackexchange.com/questions/48907/… Pero tengo una más para usted: distribución LogNormal: maneje aplicando log, luego proceda como con la distribución normal.

Erich Schubert

Si, como usted afirma, los datos son normales, aparte de una pequeña proporción de valores atípicos, la mediana y la desviación absoluta mediana serán robustas a los errores graves, pero no harán un uso muy eficiente de la información en los datos no periféricos.

Si conociera algún límite a priori en la proporción de valores atípicos, podría recortar esa proporción para la media y Winsorizar la desviación estándar. Una alternativa que no requiere tal conocimiento sería usar estimadores M para la ubicación y cantidades relacionadas para la varianza. La ganancia en eficiencia si sus suposiciones son correctas (como que los datos realmente son normales, aparte de un pequeño porcentaje de valores atípicos) en algunas circunstancias puede ser sustancial.

$\frac{n}{n-1}$

Glen_b -Reinstate a Monica
fuente