Mientras hacía algunas simulaciones, me di cuenta de que el cuantil de la muestra es un estimador sesgado del verdadero cuantil. Y, según mis simulaciones, una potencialmente muy sesgada.
Me sorprendió ese resultado ya que el CDF empírico no está sesgado, pero después de un poco de investigación en Internet, descubrí que era cierto .
Traté de averiguar de dónde proviene ese sesgo, pero trabajar con cuantiles de muestra es bastante difícil. ¿Alguien tiene una demostración de ese sesgo (e, idealmente, una cuantificación)?
estimation
quantiles
Thomas
fuente
fuente
Respuestas:
El sesgo en la estimación de los cuantiles se investiga de forma libre de distribución enp
http://www.sciencedirect.com/science/article/pii/S016771520000242X
(un pdf se puede encontrar en la misma página). Los autores se centran en el estimador cuantil basado en la inversión de ECDF. No se hacen suposiciones sobre la distribución subyacente (excepto el segundo momento finito), por lo tanto, también se incluyen distribuciones discretas.
Algunos puntos destacados:
El sesgo es proporcional a la desviación estándar de la distribución subyacenteσ
El sesgo es menor en los cuantiles centrales que en los extremos. Esto se debe al hecho de que entre todas las distribuciones con desviación estándar , el sesgo oscila en un intervalo de longitud . Sorprendentemente, esto no depende del tamaño de la muestra .σ<∞ σp(1−p)√ n
Para , entre todas las distribuciones estandarizadas (media 0, desviación estándar 1), el peor sesgo está asociado con la distribución que tiene un átomo de probabilidad en y un átomo de probabilidad en .np>3 p −(1−p)/p−−−−−−−−√ 1−p p/(1−p)−−−−−−−−√
fuente
Solo para agregar a esta publicación anterior, el ECDF solo es imparcial en muestras de alto tamaño. A valores bajos de N está sesgado. Tome el caso trivial de N = 1 y el ECDF toma un valor de 1 en y por encima del valor de la muestra. Pregúntese cuál es el valor de la distribución subyacente que da una probabilidad de 1.
El sesgo en realidad excede sqrt (2 * pi) / (2N) * SD o 1.25 / N * SD, por lo que para un N de 5 es un sesgo de 0.25 SD.
En lugar de un ECDF basado en k / N, intente (k-0.5) / N para obtener un ECDF imparcial. Eso podría darle cuantiles de muestra imparciales. También asegura que ECDF (x) = 1-ECDF (-x) que disfrutan todas las demás distribuciones acumulativas.
En mi muy humilde opinión, el ECDF, tal como se define y utiliza, es un gran nombre inapropiado. Sesga Kolmogorov Smirnov, Lilliefors y otras pruebas estándar en el bajo N.
Echa un vistazo a Gilchrist "Modelado estadístico con funciones cuantiles"
fuente
Existe una definición de cuantil de muestra verdadera única (que no es la que generalmente se presenta). Ver: http://dx.doi.org/10.1155/2014/326579
fuente