Intervalo de confianza para la mediana

8

Tengo un conjunto de valores xi,i=1,,N de los cuales calculo la mediana M. Me preguntaba cómo podría calcular el error en esta estimación.

En la red descubrí que se puede calcular como 1.2533σN dónde σes la desviación estándar Pero no encontré referencias al respecto. Así que no entiendo por qué ... ¿Alguien podría explicarme?

Estaba pensando que podría usar bootstrap para tener una estimación del error, pero me gustaría evitarlo porque ralentizaría mucho mi análisis.

También estaba pensando en calcular el error en la mediana de esta manera

δM=i(xiM)2N1

¿Tiene sentido?

Shamalaia
fuente
1
¿Sabes con absoluta certeza que los datos se distribuyen normalmente?
gung - Restablece a Monica
son lognormales
shamalaia
44
Bootstrap debería funcionar y no podría llevar mucho tiempo. O tiene un conjunto de datos lo suficientemente completo y no necesita hacer un arranque, simplemente tome la mediana de su variable como una buena estimación de la mediana real. O tiene un conjunto de datos bastante pequeño y podría usar bootstrap para estimar una mediana con su error de margen en un tiempo no excesivo.
YCR
2
En mi publicación aparece información extensa sobre la distribución de la mediana en stats.stackexchange.com/a/86804/919 . Desarrolla la teoría necesaria para los intervalos de confianza de aproximación normal y no paramétrica.
whuber

Respuestas:

12

Para lidiar directamente con el error en la mediana, puede usar el intervalo de confianza no paramétrico exacto para la mediana, que usa estadísticas de pedido. Si desea algo diferente, es decir, una medida de dispersión, considere la diferencia de medias de Gini. El código está aquí para el intervalo de confianza de la mediana.

Frank Harrell
fuente
En realidad estaba considerando usar un análogo del coeficiente de Gini: Sn=cmedj(medj|xixj|)según lo definido por Rousseeuw y Croux ( web.ipac.caltech.edu/staff/fmasci/home/astro_refs/… ).
shamalaia
1
La mediana debe tener un error asimétrico si la distribución de datos es asimétrica.
Frank Harrell
11

Como se señaló en la otra respuesta, existe un IC no paramétrico para la mediana que utiliza las estadísticas de orden. Ese CI es mejor en muchos aspectos que lo que encontró en la red.

Ahora, si debes saber dónde 1.2533σNEl factor proviene, la respuesta es de la distribución asintótica de la mediana. Si denotamos la mediana de la muestra porθ~ y la mediana de la población por θ entonces se puede demostrar que

n(θ~θ)LN(0,14[f(θ)]2)

dónde fes la distribución de tu muestra. El resultado no es tan universal como el CLT porque la distribución asintética todavía depende de la distribución subyacente de su muestra (a través del término[f(θ)]2) Sin embargo, puede hacer la simplificación drástica de que su muestra proviene de una distribución normal con media -y mediana-θ y varianza σ2. Evaluandof en su punto de simetría entonces produce

[f(θ)]2=12πσ2

y entonces la variación asintótica se convierte

2π4σ2
.

Dividido por N y sacar la raíz cuadrada de eso para llegar a su error estándar 1.2533σN.

JohnK
fuente
ahora en Wikipedia: en.wikipedia.org/wiki/Median#Sampling_distribution
Felipe G. Nievinski