Si calculo la mediana de un número suficientemente grande de observaciones extraídas de la misma distribución, ¿establece el teorema del límite central que la distribución de las medianas se aproximará a una distribución normal? Tengo entendido que esto es cierto con los medios de una gran cantidad de muestras, pero ¿también es cierto con las medianas?
Si no, ¿cuál es la distribución subyacente de las medianas de muestra?
Respuestas:
Si trabaja en términos de variables indicadoras (es decir, si y contrario), puede aplicar directamente el teorema del límite central a una media de 's, y al usar el método Delta , convertir eso en un distribución normal asintótica para , que a su vez significa que se obtiene la normalidad asintótica para cuantiles fijos de .Zi=1 Xi≤x 0 Z F - 1 X ( ˉ Z ) XF−1X(Z¯) X
Entonces, no solo la mediana, sino los cuartiles, los percentiles 90, etc.
En términos generales, si hablamos del ésimo cuantil de muestra en muestras suficientemente grandes, obtenemos que tendrá aproximadamente una distribución normal con la media del ésimo cuantil de población y la varianza .q q xq q(1−q)/(nfX(xq)2)
Por lo tanto, para la mediana ( ), la varianza en muestras suficientemente grandes será aproximadamente .q=1/2 1/(4nfX(μ~)2)
Necesita todas las condiciones en el camino para mantenerse, por supuesto, por lo que no funciona en todas las situaciones, sino para distribuciones continuas donde la densidad en el cuantil de la población es positiva y diferenciable, etc.
Además, no es válido para cuantiles extremos, porque el CLT no funciona allí (el promedio de Z no será asintóticamente normal). Necesita una teoría diferente para los valores extremos.
Editar: la crítica de whuber es correcta; esto funcionaría si fuera una mediana de población en lugar de una mediana de muestra. El argumento debe modificarse para que realmente funcione correctamente.x
fuente
La idea clave es que la distribución muestral de la mediana es simple de expresar en términos de la función de distribución pero más complicada de expresar en términos del valor de la mediana. Una vez que comprendamos cómo la función de distribución puede volver a expresar valores como probabilidades y viceversa, es fácil derivar la distribución de muestreo exacta de la mediana. Se necesita un pequeño análisis del comportamiento de la función de distribución cerca de su mediana para mostrar que esto es asintóticamente Normal.
(El mismo análisis funciona para la distribución de muestreo de cualquier cuantil, no solo la mediana).
No haré ningún intento de ser riguroso en esta exposición, pero lo llevo a cabo en pasos que se justifican fácilmente de manera rigurosa si tienes la intención de hacerlo.
Intuición
Estas son instantáneas de una caja que contiene 70 átomos de un gas atómico caliente:
En cada imagen he encontrado una ubicación, que se muestra como una línea vertical roja, que divide los átomos en dos grupos iguales entre la izquierda (dibujada como puntos negros) y la derecha (puntos blancos). Esta es una mediana de las posiciones: 35 de los átomos se encuentran a su izquierda y 35 a su derecha. Las medianas cambian porque los átomos se mueven aleatoriamente alrededor de la caja.
Estamos interesados en la distribución de esta posición intermedia. Tal pregunta se responde invirtiendo mi procedimiento: primero dibujemos una línea vertical en algún lugar, digamos en la ubicación . ¿Cuál es la posibilidad de que la mitad de los átomos estén a la izquierda de y la otra mitad a su derecha? Los átomos a la izquierda individualmente tenían posibilidades de que estuviera a la izquierda. Los átomos a la derecha individualmente tenían posibilidades de que estuviera a la derecha. Suponiendo que sus posiciones son estadísticamente independientes, las posibilidades se multiplican, dando para la posibilidad de esta configuración particular. Se podría lograr una configuración equivalente para una división diferente de los átomos en dosx x 1 - x x 35 ( 1 - x ) 35 70 35x x x 1−x x35(1−x)35 70 35 -piezas de elementos. Agregar estos números para todas las divisiones posibles da la posibilidad de
donde es el número total de átomos y es proporcional al número de divisiones de átomos en dos subgrupos iguales.C nn C n
Esta fórmula identifica la distribución de la mediana como un Beta de distribución(n/2+1,n/2+1) .
Ahora considere una caja con una forma más complicada:
Una vez más las medianas varían. Debido a que la caja está baja cerca del centro, no hay mucho de su volumen allí: un pequeño cambio en el volumen ocupado por la mitad izquierda de los átomos (los negros una vez más), o bien, podríamos admitirlo, el área a la izquierda, como se muestra en estas figuras, corresponde a un cambio relativamente grande en la posición horizontal de la mediana. De hecho, debido a que el área subtendida por una pequeña sección horizontal de la caja es proporcional a la altura allí, los cambios en las medianas se dividen por la altura de la caja. Esto hace que la mediana sea más variable para este cuadro que para el cuadro cuadrado, porque este es mucho más bajo en el medio.
En resumen, cuando medimos la posición de la mediana en términos de área (a la izquierda y a la derecha), el análisis original (para un cuadro cuadrado) permanece sin cambios. La forma de la caja solo complica la distribución si insistimos en medir la mediana en términos de su posición horizontal. Cuando lo hacemos, la relación entre el área y la representación de la posición es inversamente proporcional a la altura del cuadro.
Hay más para aprender de estas imágenes. Está claro que cuando hay pocos átomos en (cualquiera) de las cajas, hay una mayor probabilidad de que la mitad de ellos pueda terminar accidentalmente agrupados lejos a ambos lados. A medida que crece el número de átomos, disminuye el potencial de un desequilibrio tan extremo. Para rastrear esto, tomé "películas", una larga serie de 5000 cuadros, para la caja curva llena de , luego con , luego , y finalmente con átomos, y noté las medianas. Aquí hay histogramas de las posiciones medias:15 75 3753 15 75 375
Claramente, para un número suficientemente grande de átomos, la distribución de su posición media comienza a verse en forma de campana y se estrecha: eso parece un resultado del Teorema del límite central, ¿no?
Resultados cuantitativos
El "cuadro", por supuesto, representa la densidad de probabilidad de alguna distribución: su parte superior es el gráfico de la función de densidad (PDF). Por lo tanto, las áreas representan probabilidades. Colocar puntos al azar e independientemente dentro de un cuadro y observar sus posiciones horizontales es una forma de extraer una muestra de la distribución. (Esta es la idea detrás del muestreo de rechazo ) .n
La siguiente figura conecta estas ideas.
Esto parece complicado, pero en realidad es bastante simple. Aquí hay cuatro parcelas relacionadas:
La gráfica superior muestra el PDF de una distribución junto con una muestra aleatoria de tamaño . Los valores mayores que la mediana se muestran como puntos blancos; valores menores que la mediana como puntos negros. No necesita una escala vertical porque sabemos que el área total es la unidad.n
La gráfica central es la función de distribución acumulativa para la misma distribución: usa la altura para denotar la probabilidad. Comparte su eje horizontal con la primera parcela. Su eje vertical debe ir de a porque representa las probabilidades.10 1
El diagrama de la izquierda está destinado a leerse de lado: es el PDF de la distribución Beta . Muestra cómo variará la mediana en el cuadro, cuando la mediana se mide en términos de áreas a la izquierda y derecha del centro (en lugar de medirse por su posición horizontal). Dibujé puntos aleatorios de este PDF, como se muestra, y los conecté con líneas discontinuas horizontales a las ubicaciones correspondientes en el CDF original: así es como los volúmenes (medidos a la izquierda) se convierten en posiciones (medidos en la parte superior central) y gráficos inferiores). Uno de estos puntos corresponde en realidad a la mediana que se muestra en la gráfica superior; He dibujado una línea vertical sólida para mostrar eso.16(n/2+1,n/2+1) 16
La gráfica inferior es la densidad de muestreo de la mediana, medida por su posición horizontal. Se obtiene al convertir el área (en el diagrama de la izquierda) a la posición. La fórmula de conversión viene dada por el inverso del CDF original: ¡esta es simplemente la definición del CDF inverso! (En otras palabras, el CDF convierte la posición en área a la izquierda; el CDF inverso vuelve a convertir el área en posición). He trazado líneas verticales discontinuas que muestran cómo los puntos aleatorios del gráfico izquierdo se convierten en puntos aleatorios dentro del gráfico inferior . Este proceso de leer de un lado a otro nos dice cómo ir de un área a otra.
Sea el CDF de la distribución original (diagrama central) y el CDF de la distribución Beta. Para encontrar la posibilidad de que la mediana se encuentre a la izquierda de alguna posición , primero use para obtener el área a la izquierda de en el cuadro: esto es . La distribución Beta a la izquierda nos dice la posibilidad de que la mitad de los átomos se encuentren dentro de este volumen, dando : este es el CDF de la posición media . Para encontrar su PDF (como se muestra en la gráfica inferior), tome la derivada:F G x F x F(x) G(F(x))
donde es el PDF (gráfico superior) es el PDF Beta (gráfico izquierdo).f g
Esta es una fórmula exacta para la distribución de la mediana para cualquier distribución continua. (Con cierto cuidado en la interpretación se puede aplicar a cualquier distribución, sea continua o no).
Resultados asintóticos
Cuando es muy grande y no tiene un salto en su mediana, la mediana de la muestra debe variar estrechamente alrededor de la mediana verdadera de la distribución. Suponiendo también que el PDF es continuo cerca de , en la fórmula anterior no cambiará mucho de su valor en dado por Además, tampoco cambiará mucho de su valor allí: al primer orden,n F μ f μ f(x) μ, f(μ). F
Por lo tanto, con una aproximación cada vez mejor a medida que crece,n
Eso es simplemente un cambio de la ubicación y la escala de la distribución Beta. El cambio de escala entre dividirá su varianza entre (¡que será mejor que no sea cero!). Por cierto, la varianza de Beta está muy cerca de .f(μ) f(μ)2 (n/2+1,n/2+1) n/4
Este análisis puede verse como una aplicación del Método Delta .
Finalmente, Beta es aproximadamente Normal para grande . Hay muchas formas de ver esto; quizás lo más simple es mirar el logaritmo de su PDF cerca de :(n/2+1,n/2+1) n 1/2
(Las constantes y simplemente normalizan el área total a la unidad.) A través del tercer orden en , esto es lo mismo que el registro del PDF normal con varianza (Este argumento se hace riguroso mediante el uso de funciones generadoras características o acumulativas en lugar del registro del PDF).C C′ x, 1/(4n).
En conjunto, concluimos que
La distribución de la mediana de la muestra tiene una varianza de aproximadamente ,1/(4nf(μ)2)
y es aproximadamente Normal para grande ,n
todo siempre que el PDF sea continuo y distinto de cero en la medianaf μ.
fuente
R
, tal vez usandolayout
, pero de hecho se hizo con Mathematica 9.La respuesta iluminadora @EngrStudent nos dice que debemos esperar resultados diferentes cuando la distribución es continua y cuando es discreta (los gráficos "rojos", donde la distribución asintótica de la mediana de la muestra falla espectacularmente para parecer normal, corresponden a las distribuciones Binomial (3), Geométrica (11), Hipergeométrica (12), Binomial negativo (14), Poisson (18), Uniforme discreto (22).
Y de hecho este es el caso. Cuando la distribución es discreta, las cosas se complican. Proporcionaré la prueba del Caso Absolutamente Continuo, esencialmente no haciendo más que detallar la respuesta ya dada por @Glen_b, y luego discutiré un poco lo que sucede cuando la distribución es discreta, proporcionando también una referencia reciente para cualquier persona interesada en el buceo. en.
DISTRIBUCIÓN ABSOLUTAMENTE CONTINUA{X1,...Xn} FX(x)=P(Xi≤x) F′X(x)=fX(x) Zi≡I{Xi≤x} I{} Zi E(Zi)=E(I{Xi≤x})=P(Xi≤x)=FX(x),Var(Zi)=FX(x)[1−FX(x)],∀i
Considere una colección de iid variables aleatorias absolutamente continuas con función de distribución (cdf) y función de densidad . Defina donde es la función del indicador. Por tanto, es un rv de Bernoulli, con
Sea la media muestral de estos iid Bernoullis, definidos para fijo como que significa que Se aplica el Teorema del límite central y tenemosYn(x) x Yn(x)=1n∑i=1nZi E[Yn(x)]=FX(x),Var(Yn(x))=(1/n)FX(x)[1−FX(x)]
Tenga en cuenta que es decir, que no sea más que la función de distribución empírica. Al aplicar el "Método Delta" tenemos que para una función continua y diferenciable con derivada distinta de cero en el punto de interés, obtenemosYn(x)=F^n(x) g(t) g′(t)
Ahora, elija donde denota la función inversa. Esta es una función continua y diferenciable (ya que es), y por el Teorema de la función inversa tenemosg(t)≡F−1X(t),t∈(0,1) −1 FX(x)
Insertando estos resultados en en el resultado asintótico derivado del método delta tenemosg
y simplificando,
.. para cualquier fijo . Ahora establezca , la mediana (verdadera) de la población. Entonces tenemos y el resultado general anterior se convierte, para nuestro caso de interés,x x=m FX(m)=1/2
Pero converge a la mediana de muestra . Esto es porqueF−1X(F^n(m)) m^
El lado derecho de la desigualdad converge a y la más pequeña para la que finalmente , es la mediana de la muestra.1/2 x FX≥1/2
Entonces obtenemos
DISTRIBUCIONES DISCRETAS
Cuando la distribución es discreta (o cuando la muestra contiene lazos), se ha argumentado que la definición "clásica" de los cuantiles muestrales y, por lo tanto, también de la mediana, puede ser engañosa en primer lugar , ya que el concepto teórico debe ser utilizado para medir lo que se intenta medir por cuantiles.
En cualquier caso, se ha simulado que bajo esta definición clásica (la que todos conocemos), la distribución asintótica de la mediana de la muestra no es normal y es una distribución discreta.
Una definición alternativa de los cuantiles de muestra es mediante el uso del concepto de la función de "distribución media", que se define comoFmid(x)=P(X≤x)−12P(X=x)
La definición de cuantiles de muestra a través del concepto de función de distribución media puede verse como una generalización que puede cubrir como casos especiales las distribuciones continuas, pero también, las no tan continuas también.
Para el caso de distribuciones discretas, entre otros resultados, se ha encontrado que la mediana muestral tal como se define a través de este concepto tiene una distribución asintóticamente normal con una ... varianza de aspecto elaborado.
La mayoría de estos son resultados recientes. La referencia es Ma, Y., Genton, MG y Parzen, E. (2011). Propiedades asintóticas de los cuantiles de muestra de distribuciones discretas. Anales del Instituto de Matemática Estadística, 63 (2), 227-243. , donde se puede encontrar una discusión y enlaces a la literatura relevante más antigua.
fuente
Sí, lo es, y no solo para la mediana, sino también para cualquier cuantil de muestra. Copiando de este documento , escrito por TS Ferguson, profesor de la UCLA (su página está aquí ), que trata de manera interesante la distribución conjunta de la media muestral y los cuantiles muestrales, tenemos:
Deje se iid con la función de distribución , densidad , media y varianza finita . Deje y deje que denote el -ésimo cuantil de , de modo que . Suponga que la densidad es continua y positiva en . Deje denotar el -ésimo cuantil muestra . EntoncesX1,...,Xn F(x) f(x) μ σ2 0<p<1 xp p F F(xp)=p f(x) xp Yn=X(n:⌈np⌉) p
Para (mediana), y tiene el CLT para medianas,p=1/2⇒xp=m
fuente
Me gusta la respuesta analítica dada por Glen_b. Es una buena respuesta
Necesita una foto. Me gustan las fotos.
Aquí hay áreas de elasticidad en una respuesta a la pregunta:
Para un estándar normal, utilicé el siguiente código de MatLab:
y obtuve la siguiente trama como salida:
Entonces, ¿por qué no hacer esto para las otras 22 distribuciones "incorporadas", excepto el uso de diagramas de problemas (donde la línea recta significa muy normal)?
Y aquí está el código fuente para ello:
Cuando veo la prueba analítica, podría pensar "en teoría, todos podrían encajar", pero cuando lo pruebo, puedo moderar eso con "hay varias formas en que esto no funciona tan bien, a menudo involucrando discretos o altamente restringidos". valores "y esto podría hacerme querer tener más cuidado al aplicar la teoría a todo lo que cuesta dinero.
Buena suerte.
fuente