Demostración del sesgo cuantil de muestra

8

Mientras hacía algunas simulaciones, me di cuenta de que el cuantil de la muestra es un estimador sesgado del verdadero cuantil. Y, según mis simulaciones, una potencialmente muy sesgada.

Me sorprendió ese resultado ya que el CDF empírico no está sesgado, pero después de un poco de investigación en Internet, descubrí que era cierto .

Traté de averiguar de dónde proviene ese sesgo, pero trabajar con cuantiles de muestra es bastante difícil. ¿Alguien tiene una demostración de ese sesgo (e, idealmente, una cuantificación)?

Thomas
fuente
2
El ECDF es imparcial para el cdf, pero ¿cómo pasaría del ECDF a un cuantil de muestra?
Glen_b -Reinstale a Monica el
3
No existe tal cosa como "el cuantil de muestra". Hay muchas definiciones de cuantiles de muestra. Debe especificar a cuál se refiere.
Rob Hyndman

Respuestas:

3

El sesgo en la estimación de los cuantiles se investiga de forma libre de distribución enp

http://www.sciencedirect.com/science/article/pii/S016771520000242X

(un pdf se puede encontrar en la misma página). Los autores se centran en el estimador cuantil basado en la inversión de ECDF. No se hacen suposiciones sobre la distribución subyacente (excepto el segundo momento finito), por lo tanto, también se incluyen distribuciones discretas.

Algunos puntos destacados:

  • El sesgo es proporcional a la desviación estándar de la distribución subyacenteσ

  • El sesgo es menor en los cuantiles centrales que en los extremos. Esto se debe al hecho de que entre todas las distribuciones con desviación estándar , el sesgo oscila en un intervalo de longitud . Sorprendentemente, esto no depende del tamaño de la muestra .σ<σp(1p)n

  • Para , entre todas las distribuciones estandarizadas (media 0, desviación estándar 1), el peor sesgo está asociado con la distribución que tiene un átomo de probabilidad en y un átomo de probabilidad en .np>3p(1p)/p1pp/(1p)

Michael M
fuente
1

Solo para agregar a esta publicación anterior, el ECDF solo es imparcial en muestras de alto tamaño. A valores bajos de N está sesgado. Tome el caso trivial de N = 1 y el ECDF toma un valor de 1 en y por encima del valor de la muestra. Pregúntese cuál es el valor de la distribución subyacente que da una probabilidad de 1.

El sesgo en realidad excede sqrt (2 * pi) / (2N) * SD o 1.25 / N * SD, por lo que para un N de 5 es un sesgo de 0.25 SD.

En lugar de un ECDF basado en k / N, intente (k-0.5) / N para obtener un ECDF imparcial. Eso podría darle cuantiles de muestra imparciales. También asegura que ECDF (x) = 1-ECDF (-x) que disfrutan todas las demás distribuciones acumulativas.

En mi muy humilde opinión, el ECDF, tal como se define y utiliza, es un gran nombre inapropiado. Sesga Kolmogorov Smirnov, Lilliefors y otras pruebas estándar en el bajo N.

Echa un vistazo a Gilchrist "Modelado estadístico con funciones cuantiles"

usuario2092957
fuente
1
Este es un punto interesante, pero técnicamente, el ECDF es imparcial. Se refiere al hecho de que, por ejemplo, después de ver que ECDF (x) = 1, sabe que el error solo puede tener un signo, por lo que tiene un sesgo condicional de tipo. Pero la propiedad frecuentista de la imparcialidad se refiere a la situación antes de ver cualquier dato, no el sesgo condicional al que se refiere.
kjetil b halvorsen
0

Existe una definición de cuantil de muestra verdadera única (que no es la que generalmente se presenta). Ver: http://dx.doi.org/10.1155/2014/326579

usuario153836
fuente
El artículo es interesante, pero muchos lectores se beneficiarían de un resumen de los argumentos y por qué las muchas definiciones existentes están mal guiadas.
mdewey