Teorema del límite central para medianas de muestra

55

Si calculo la mediana de un número suficientemente grande de observaciones extraídas de la misma distribución, ¿establece el teorema del límite central que la distribución de las medianas se aproximará a una distribución normal? Tengo entendido que esto es cierto con los medios de una gran cantidad de muestras, pero ¿también es cierto con las medianas?

Si no, ¿cuál es la distribución subyacente de las medianas de muestra?

usuario1728853
fuente
99
Necesita algunas condiciones de regularidad para que la mediana tenga una distribución normal al reescalar en el límite. Para ver qué puede salir mal, considere cualquier distribución en un número finito de puntos, por ejemplo, uniforme en . X{1,0,1}
cardenal
55
Con respecto a las condiciones de regularidad: si la distribución subyacente tiene una densidad que es diferenciable en la mediana (verdadera), entonces la mediana de la muestra tendrá una distribución normal asintótica con una varianza que depende de dicha derivada. Esto es más general para cuantiles arbitrarios.
cardenal
66
@cardinal Creo que necesita condiciones adicionales: cuando la densidad es en segundo lugar diferenciable, es igual a cero en la mediana y tiene cero primera derivada allí, entonces la distribución asintótica de la mediana de la muestra será bimodal.
whuber
44
@whuber: Sí, debido a que la densidad (no su derivada como dije anteriormente inadvertidamente) entra en la varianza como recíproco, el valor de la densidad en ese punto no debe ser cero. ¡Disculpas por dejar esa condición!
cardenal
44
Los contraejemplos elementales se pueden crear usando cualquier distribución que asigne probabilidad de a un intervalo y probabilidad a donde como un Bernoulli ( ). Las medianas de muestra serán menores o iguales a con la frecuencia que sean mayores o iguales a . La posibilidad de que la mediana no esté en aproxima a para muestras grandes, dejando efectivamente un "espacio" en1/2(,μ]1/2[μ+δ,)δ>0,(1/2)μ=0,δ=1μμ+δ(μ,μ+δ)0(μ,μ+δ)en la distribución limitante, que obviamente no será normal, sin importar cómo esté estandarizada.
whuber

Respuestas:

39

Si trabaja en términos de variables indicadoras (es decir, si y contrario), puede aplicar directamente el teorema del límite central a una media de 's, y al usar el método Delta , convertir eso en un distribución normal asintótica para , que a su vez significa que se obtiene la normalidad asintótica para cuantiles fijos de .Zi=1Xix0ZF - 1 X ( ˉ Z ) XFX1(Z¯)X

Entonces, no solo la mediana, sino los cuartiles, los percentiles 90, etc.

En términos generales, si hablamos del ésimo cuantil de muestra en muestras suficientemente grandes, obtenemos que tendrá aproximadamente una distribución normal con la media del ésimo cuantil de población y la varianza .qqxqq(1q)/(nfX(xq)2)

Por lo tanto, para la mediana ( ), la varianza en muestras suficientemente grandes será aproximadamente .q=1/21/(4nfX(μ~)2)

Necesita todas las condiciones en el camino para mantenerse, por supuesto, por lo que no funciona en todas las situaciones, sino para distribuciones continuas donde la densidad en el cuantil de la población es positiva y diferenciable, etc.

Además, no es válido para cuantiles extremos, porque el CLT no funciona allí (el promedio de Z no será asintóticamente normal). Necesita una teoría diferente para los valores extremos.


Editar: la crítica de whuber es correcta; esto funcionaría si fuera una mediana de población en lugar de una mediana de muestra. El argumento debe modificarse para que realmente funcione correctamente.x

Glen_b
fuente
55
Creo que puede faltar una parte lógica de esta explicación: ¿cómo se usan exactamente los indicadores para obtener medianas de muestra ? Puedo ver cómo cuando es la mediana subyacente , el indicador funcionará: pero este indicador no coincide con la mediana de la muestra ni con ninguna de sus funciones. X ixxXix
whuber
¿Cómo pasar de distribuciones normales asintóticas para para obtener la normalidad asintótica para cuantiles fijos de X? Editar: Lo tengo, que convierte en un valor porcentual 0-100%, por lo que los valores cuantiles son asintóticamente normales¯ ZFX1(Z¯)Z¯
Adam
49

La idea clave es que la distribución muestral de la mediana es simple de expresar en términos de la función de distribución pero más complicada de expresar en términos del valor de la mediana. Una vez que comprendamos cómo la función de distribución puede volver a expresar valores como probabilidades y viceversa, es fácil derivar la distribución de muestreo exacta de la mediana. Se necesita un pequeño análisis del comportamiento de la función de distribución cerca de su mediana para mostrar que esto es asintóticamente Normal.

(El mismo análisis funciona para la distribución de muestreo de cualquier cuantil, no solo la mediana).

No haré ningún intento de ser riguroso en esta exposición, pero lo llevo a cabo en pasos que se justifican fácilmente de manera rigurosa si tienes la intención de hacerlo.


Intuición

Estas son instantáneas de una caja que contiene 70 átomos de un gas atómico caliente:

Figura 1

En cada imagen he encontrado una ubicación, que se muestra como una línea vertical roja, que divide los átomos en dos grupos iguales entre la izquierda (dibujada como puntos negros) y la derecha (puntos blancos). Esta es una mediana de las posiciones: 35 de los átomos se encuentran a su izquierda y 35 a su derecha. Las medianas cambian porque los átomos se mueven aleatoriamente alrededor de la caja.

Estamos interesados ​​en la distribución de esta posición intermedia. Tal pregunta se responde invirtiendo mi procedimiento: primero dibujemos una línea vertical en algún lugar, digamos en la ubicación . ¿Cuál es la posibilidad de que la mitad de los átomos estén a la izquierda de y la otra mitad a su derecha? Los átomos a la izquierda individualmente tenían posibilidades de que estuviera a la izquierda. Los átomos a la derecha individualmente tenían posibilidades de que estuviera a la derecha. Suponiendo que sus posiciones son estadísticamente independientes, las posibilidades se multiplican, dando para la posibilidad de esta configuración particular. Se podría lograr una configuración equivalente para una división diferente de los átomos en dosx x 1 - x x 35 ( 1 - x ) 35 70 35xxx1xx35(1x)357035-piezas de elementos. Agregar estos números para todas las divisiones posibles da la posibilidad de

Pr(x is a median)=Cxn/2(1x)n/2

donde es el número total de átomos y es proporcional al número de divisiones de átomos en dos subgrupos iguales.C nnCn

Esta fórmula identifica la distribución de la mediana como un Beta de distribución(n/2+1,n/2+1) .

Ahora considere una caja con una forma más complicada:

Figura 2

Una vez más las medianas varían. Debido a que la caja está baja cerca del centro, no hay mucho de su volumen allí: un pequeño cambio en el volumen ocupado por la mitad izquierda de los átomos (los negros una vez más), o bien, podríamos admitirlo, el área a la izquierda, como se muestra en estas figuras, corresponde a un cambio relativamente grande en la posición horizontal de la mediana. De hecho, debido a que el área subtendida por una pequeña sección horizontal de la caja es proporcional a la altura allí, los cambios en las medianas se dividen por la altura de la caja. Esto hace que la mediana sea más variable para este cuadro que para el cuadro cuadrado, porque este es mucho más bajo en el medio.

En resumen, cuando medimos la posición de la mediana en términos de área (a la izquierda y a la derecha), el análisis original (para un cuadro cuadrado) permanece sin cambios. La forma de la caja solo complica la distribución si insistimos en medir la mediana en términos de su posición horizontal. Cuando lo hacemos, la relación entre el área y la representación de la posición es inversamente proporcional a la altura del cuadro.

Hay más para aprender de estas imágenes. Está claro que cuando hay pocos átomos en (cualquiera) de las cajas, hay una mayor probabilidad de que la mitad de ellos pueda terminar accidentalmente agrupados lejos a ambos lados. A medida que crece el número de átomos, disminuye el potencial de un desequilibrio tan extremo. Para rastrear esto, tomé "películas", una larga serie de 5000 cuadros, para la caja curva llena de , luego con , luego , y finalmente con átomos, y noté las medianas. Aquí hay histogramas de las posiciones medias:15 75 37531575375

figura 3

Claramente, para un número suficientemente grande de átomos, la distribución de su posición media comienza a verse en forma de campana y se estrecha: eso parece un resultado del Teorema del límite central, ¿no?


Resultados cuantitativos

El "cuadro", por supuesto, representa la densidad de probabilidad de alguna distribución: su parte superior es el gráfico de la función de densidad (PDF). Por lo tanto, las áreas representan probabilidades. Colocar puntos al azar e independientemente dentro de un cuadro y observar sus posiciones horizontales es una forma de extraer una muestra de la distribución. (Esta es la idea detrás del muestreo de rechazo ) .n

La siguiente figura conecta estas ideas.

Figura 4

Esto parece complicado, pero en realidad es bastante simple. Aquí hay cuatro parcelas relacionadas:

  1. La gráfica superior muestra el PDF de una distribución junto con una muestra aleatoria de tamaño . Los valores mayores que la mediana se muestran como puntos blancos; valores menores que la mediana como puntos negros. No necesita una escala vertical porque sabemos que el área total es la unidad.n

  2. La gráfica central es la función de distribución acumulativa para la misma distribución: usa la altura para denotar la probabilidad. Comparte su eje horizontal con la primera parcela. Su eje vertical debe ir de a porque representa las probabilidades.101

  3. El diagrama de la izquierda está destinado a leerse de lado: es el PDF de la distribución Beta . Muestra cómo variará la mediana en el cuadro, cuando la mediana se mide en términos de áreas a la izquierda y derecha del centro (en lugar de medirse por su posición horizontal). Dibujé puntos aleatorios de este PDF, como se muestra, y los conecté con líneas discontinuas horizontales a las ubicaciones correspondientes en el CDF original: así es como los volúmenes (medidos a la izquierda) se convierten en posiciones (medidos en la parte superior central) y gráficos inferiores). Uno de estos puntos corresponde en realidad a la mediana que se muestra en la gráfica superior; He dibujado una línea vertical sólida para mostrar eso.16(n/2+1,n/2+1)16

  4. La gráfica inferior es la densidad de muestreo de la mediana, medida por su posición horizontal. Se obtiene al convertir el área (en el diagrama de la izquierda) a la posición. La fórmula de conversión viene dada por el inverso del CDF original: ¡esta es simplemente la definición del CDF inverso! (En otras palabras, el CDF convierte la posición en área a la izquierda; el CDF inverso vuelve a convertir el área en posición). He trazado líneas verticales discontinuas que muestran cómo los puntos aleatorios del gráfico izquierdo se convierten en puntos aleatorios dentro del gráfico inferior . Este proceso de leer de un lado a otro nos dice cómo ir de un área a otra.

Sea el CDF de la distribución original (diagrama central) y el CDF de la distribución Beta. Para encontrar la posibilidad de que la mediana se encuentre a la izquierda de alguna posición , primero use para obtener el área a la izquierda de en el cuadro: esto es . La distribución Beta a la izquierda nos dice la posibilidad de que la mitad de los átomos se encuentren dentro de este volumen, dando : este es el CDF de la posición media . Para encontrar su PDF (como se muestra en la gráfica inferior), tome la derivada:FGxFxF(x)G(F(x))

ddxG(F(x))=G(F(x))F(x)=g(F(x))f(x)

donde es el PDF (gráfico superior) es el PDF Beta (gráfico izquierdo).fg

Esta es una fórmula exacta para la distribución de la mediana para cualquier distribución continua. (Con cierto cuidado en la interpretación se puede aplicar a cualquier distribución, sea continua o no).


Resultados asintóticos

Cuando es muy grande y no tiene un salto en su mediana, la mediana de la muestra debe variar estrechamente alrededor de la mediana verdadera de la distribución. Suponiendo también que el PDF es continuo cerca de , en la fórmula anterior no cambiará mucho de su valor en dado por Además, tampoco cambiará mucho de su valor allí: al primer orden,nFμfμ f(x)μ,f(μ).F

F(x)=F(μ+(xμ))F(μ)+F(μ)(xμ)=1/2+f(μ)(xμ).

Por lo tanto, con una aproximación cada vez mejor a medida que crece,n

g(F(x))f(x)g(1/2+f(μ)(xμ))f(μ).

Eso es simplemente un cambio de la ubicación y la escala de la distribución Beta. El cambio de escala entre dividirá su varianza entre (¡que será mejor que no sea cero!). Por cierto, la varianza de Beta está muy cerca de .f(μ)f(μ)2(n/2+1,n/2+1)n/4

Este análisis puede verse como una aplicación del Método Delta .

Finalmente, Beta es aproximadamente Normal para grande . Hay muchas formas de ver esto; quizás lo más simple es mirar el logaritmo de su PDF cerca de :(n/2+1,n/2+1)n1/2

log(C(1/2+x)n/2(1/2x)n/2)=n2log(14x2)+C=C2nx2+O(x4).

(Las constantes y simplemente normalizan el área total a la unidad.) A través del tercer orden en , esto es lo mismo que el registro del PDF normal con varianza (Este argumento se hace riguroso mediante el uso de funciones generadoras características o acumulativas en lugar del registro del PDF).CCx,1/(4n).

En conjunto, concluimos que

  • La distribución de la mediana de la muestra tiene una varianza de aproximadamente ,1/(4nf(μ)2)

  • y es aproximadamente Normal para grande ,n

  • todo siempre que el PDF sea ​​continuo y distinto de cero en la medianafμ.

whuber
fuente
Me gusta esa cuarta figura. ¿Lo hiciste usando R?
EngrStudent - Restablecer Monica
@Engr Probablemente podría haber hecho uno igual R, tal vez usando layout, pero de hecho se hizo con Mathematica 9.
whuber
1
Es una cosa hermosa.
EngrStudent - Restablecer Monica
@whuber ¿no es Beta (n / 2 + 1, n / 2 + 1) bajo Beta (1,1) antes? Véase, por ejemplo, ine.pt/revstat/pdf/rs080204.pdf
Tim
1
@Tim No entiendo la relevancia de la referencia a un previo, pero le agradezco que señale que el nombre correcto de la distribución Beta identificada en la sección "Intuición" es Beta . Lo arreglaré donde sea que ocurra (que está en varios lugares en la discusión). (n/2+1,n/2+1)
whuber
18

La respuesta iluminadora @EngrStudent nos dice que debemos esperar resultados diferentes cuando la distribución es continua y cuando es discreta (los gráficos "rojos", donde la distribución asintótica de la mediana de la muestra falla espectacularmente para parecer normal, corresponden a las distribuciones Binomial (3), Geométrica (11), Hipergeométrica (12), Binomial negativo (14), Poisson (18), Uniforme discreto (22).

Y de hecho este es el caso. Cuando la distribución es discreta, las cosas se complican. Proporcionaré la prueba del Caso Absolutamente Continuo, esencialmente no haciendo más que detallar la respuesta ya dada por @Glen_b, y luego discutiré un poco lo que sucede cuando la distribución es discreta, proporcionando también una referencia reciente para cualquier persona interesada en el buceo. en.

DISTRIBUCIÓN ABSOLUTAMENTE CONTINUA
Considere una colección de iid variables aleatorias absolutamente continuas con función de distribución (cdf) y función de densidad . Defina donde es la función del indicador. Por tanto, es un rv de Bernoulli, con {X1,...Xn}FX(x)=P(Xix)FX(x)=fX(x)ZiI{Xix}I{}Zi

E(Zi)=E(I{Xix})=P(Xix)=FX(x),Var(Zi)=FX(x)[1FX(x)],i

Sea la media muestral de estos iid Bernoullis, definidos para fijo como que significa que Se aplica el Teorema del límite central y tenemosYn(x)x

Yn(x)=1ni=1nZi
E[Yn(x)]=FX(x),Var(Yn(x))=(1/n)FX(x)[1FX(x)]

n(Yn(x)FX(x))dN(0,FX(x)[1FX(x)])

Tenga en cuenta que es decir, que no sea más que la función de distribución empírica. Al aplicar el "Método Delta" tenemos que para una función continua y diferenciable con derivada distinta de cero en el punto de interés, obtenemosYn(x)=F^n(x)g(t)g(t)

n(g[F^n(x)]g[FX(x)])dN(0,FX(x)[1FX(x)](g[FX(x)])2)

Ahora, elija donde denota la función inversa. Esta es una función continua y diferenciable (ya que es), y por el Teorema de la función inversa tenemosg(t)FX1(t),t(0,1)1FX(x)

g(t)=ddtFX1(t)=1fx(FX1(t))

Insertando estos resultados en en el resultado asintótico derivado del método delta tenemosg

n(FX1(F^n(x))FX1(FX(x)))dN(0,FX(x)[1FX(x)][fx(FX1(FX(x)))]2)

y simplificando,

n(FX1(F^n(x))x)dN(0,FX(x)[1FX(x)][fx(x)]2)

.. para cualquier fijo . Ahora establezca , la mediana (verdadera) de la población. Entonces tenemos y el resultado general anterior se convierte, para nuestro caso de interés,xx=mFX(m)=1/2

n(FX1(F^n(m))m)dN(0,1[2fx(m)]2)

Pero converge a la mediana de muestra . Esto es porqueFX1(F^n(m))m^

FX1(F^n(m))=inf{x:FX(x)F^n(m)}=inf{x:FX(x)1ni=1nI{Xim}}

El lado derecho de la desigualdad converge a y la más pequeña para la que finalmente , es la mediana de la muestra.1/2xFX1/2

Entonces obtenemos

n(m^m)dN(0,1[2fx(m)]2)
que es la Central Teorema de límite para la mediana muestral para distribuciones absolutamente continuas.

DISTRIBUCIONES DISCRETAS
Cuando la distribución es discreta (o cuando la muestra contiene lazos), se ha argumentado que la definición "clásica" de los cuantiles muestrales y, por lo tanto, también de la mediana, puede ser engañosa en primer lugar , ya que el concepto teórico debe ser utilizado para medir lo que se intenta medir por cuantiles.
En cualquier caso, se ha simulado que bajo esta definición clásica (la que todos conocemos), la distribución asintótica de la mediana de la muestra no es normal y es una distribución discreta.

Una definición alternativa de los cuantiles de muestra es mediante el uso del concepto de la función de "distribución media", que se define como

Fmid(x)=P(Xx)12P(X=x)

La definición de cuantiles de muestra a través del concepto de función de distribución media puede verse como una generalización que puede cubrir como casos especiales las distribuciones continuas, pero también, las no tan continuas también.

Para el caso de distribuciones discretas, entre otros resultados, se ha encontrado que la mediana muestral tal como se define a través de este concepto tiene una distribución asintóticamente normal con una ... varianza de aspecto elaborado.

La mayoría de estos son resultados recientes. La referencia es Ma, Y., Genton, MG y Parzen, E. (2011). Propiedades asintóticas de los cuantiles de muestra de distribuciones discretas. Anales del Instituto de Matemática Estadística, 63 (2), 227-243. , donde se puede encontrar una discusión y enlaces a la literatura relevante más antigua.

Alecos Papadopoulos
fuente
2
(+1) Para el artículo. Esta es una excelente respuesta.
Alex Williams
¿Puede explicar por qué converge con la mediana de muestra ? FX1(F^n(m))m^
kasa
Sé que en distribución, pero no puedo ver cómo la mediana de muestra es igual aF^n(m)FX(m)m^FX1(F^n(m))
kasa
1
@kasa elaboré un poco sobre el asunto.
Alecos Papadopoulos
Lamento seguir mencionando esto nuevamente: Pero la más pequeña para la que finalmente , es la mediana de la población, no la mediana de la muestra, ¿no? xFX(x)1/2
kasa
10

Sí, lo es, y no solo para la mediana, sino también para cualquier cuantil de muestra. Copiando de este documento , escrito por TS Ferguson, profesor de la UCLA (su página está aquí ), que trata de manera interesante la distribución conjunta de la media muestral y los cuantiles muestrales, tenemos:

Deje se iid con la función de distribución , densidad , media y varianza finita . Deje y deje que denote el -ésimo cuantil de , de modo que . Suponga que la densidad es continua y positiva en . Deje denotar el -ésimo cuantil muestra . EntoncesX1,...,XnF(x)f(x)μσ20<p<1xppFF(xp)=pf(x)xpYn=X(n:np)p

n(Ynxp)dN(0,p(1p)/(f(xp))2)

Para (mediana), y tiene el CLT para medianas,p=1/2xp=m

n(Ynm)dN(0,[2f(m)]2)
Alecos Papadopoulos
fuente
1
Agradable. Vale la pena mencionar que la varianza de la mediana muestral no es tan fácil de estimar como la media muestral.
Michael M
@ Alecos: ¿cómo obtuviste dos respuestas para esta pregunta?
EngrStudent - Restablece a Mónica el
1
@EngrStudent El sistema lo permite, solo le pide que verifique que realmente desea agregar una segunda respuesta.
Alecos Papadopoulos
8

Me gusta la respuesta analítica dada por Glen_b. Es una buena respuesta

Necesita una foto. Me gustan las fotos.

Aquí hay áreas de elasticidad en una respuesta a la pregunta:

  • Hay muchas distribuciones en el mundo. Es probable que el kilometraje varíe.
  • Suficiente tiene diferentes significados. Para un contraejemplo a una teoría, a veces se requiere un solo contraejemplo para cumplir con "suficiente". Para demostrar bajas tasas de defectos utilizando incertidumbre binomial, se pueden requerir cientos o miles de muestras.

Para un estándar normal, utilicé el siguiente código de MatLab:

mysamples=1000;

loops=10000;

y1=median(normrnd(0,1,mysamples,loops));

cdfplot(y1)

y obtuve la siguiente trama como salida:

ingrese la descripción de la imagen aquí

Entonces, ¿por qué no hacer esto para las otras 22 distribuciones "incorporadas", excepto el uso de diagramas de problemas (donde la línea recta significa muy normal)?

ingrese la descripción de la imagen aquí

Y aquí está el código fuente para ello:

mysamples=1000;

loops=600;

y=zeros(loops,23);

y(:,1)=median(random('Normal', 0,1,mysamples,loops));

y(:,2)=median(random('beta', 5,0.2,mysamples,loops));
y(:,3)=median(random('bino', 10,0.5,mysamples,loops));
y(:,4)=median(random('chi2', 10,mysamples,loops));
y(:,5)=median(random('exp', 700,mysamples,loops));

y(:,6)=median(random('ev', 700,mysamples,loops));
y(:,7)=median(random('f', 5,3,mysamples,loops));
y(:,8)=median(random('gam', 10,5,mysamples,loops));
y(:,9)=median(random('gev', 0.24, 1.17, 5.8,mysamples,loops));
y(:,10)=median(random('gp', 0.12, 0.81,mysamples,loops));

y(:,11)=median(random('geo', 0.03,mysamples,loops));
y(:,12)=median(random('hyge', 1000,50,20,mysamples,loops));
y(:,13)=median(random('logn', log(20000),1.0,mysamples,loops));
y(:,14)=median(random('nbin', 2,0.11,mysamples,loops));
y(:,15)=median(random('ncf', 5,20,10,mysamples,loops));

y(:,16)=median(random('nct', 10,1,mysamples,loops));
y(:,17)=median(random('ncx2', 4,2,mysamples,loops));
y(:,18)=median(random('poiss', 5,mysamples,loops));
y(:,19)=median(random('rayl', 0.5,mysamples,loops));
y(:,20)=median(random('t', 5,mysamples,loops));

y(:,21)=median(random('unif',0,1,mysamples,loops));
y(:,22)=median(random('unid', 5,mysamples,loops));
y(:,23)=median(random('wbl', 0.5,2,mysamples,loops));


figure(1); clf
hold on

for i=2:23
    subplot(4,6,i-1)

    probplot(y(:,i))
    title(['Probplot of ' num2str(i)])
    axis tight

    if not(isempty(find(i==[3,11,12,14,18,22])))
        set(gca,'Color','r')
    end

end

Cuando veo la prueba analítica, podría pensar "en teoría, todos podrían encajar", pero cuando lo pruebo, puedo moderar eso con "hay varias formas en que esto no funciona tan bien, a menudo involucrando discretos o altamente restringidos". valores "y esto podría hacerme querer tener más cuidado al aplicar la teoría a todo lo que cuesta dinero.

Buena suerte.

EngrStudent - Restablece a Monica
fuente
¿Me equivoco o la distribución para la cual la mediana no se distribuye normalmente es discreta?
SEF