Distribución asintótica de la varianza muestral de muestra no normal

19

Este es un tratamiento más general del problema planteado por esta pregunta . Después de deducir la distribución asintótica de la varianza de la muestra, podemos aplicar el método Delta para llegar a la distribución correspondiente para la desviación estándar.

Deje una muestra de tamaño de iid variables aleatorias no normales , con media y varianza \ sigma ^ 2 . Establezca la media muestral y la varianza muestral como \ bar x = \ frac 1n \ sum_ {i = 1} ^ nX_i, \; \; \; s ^ 2 = \ frac 1 {n-1} \ sum_ {i = 1} ^ n (X_i- \ bar x) ^ 2{ X i } ,n{Xi},i=1,...,nμσ2

x¯=1ni=1nXi,s2=1n1i=1n(Xix¯)2

Sabemos que

E(s2)=σ2,Var(s2)=1n(μ4n3n1σ4)

donde μ4=E(Xiμ)4 , y restringimos nuestra atención a las distribuciones para las cuales los momentos deben existir y ser finitos, existen y son finitos.

¿Sostiene eso?

n(s2σ2)dN(0,μ4σ4)?
Alecos Papadopoulos
fuente
Je Acabo de publicar en el otro hilo, sin darme cuenta de que has publicado esto. Hay varias cosas que se pueden encontrar en el CLT aplicado a la varianza (como p3-4 aquí, por ejemplo). Buena respuesta por cierto.
Glen_b -Reinstalar Monica
Gracias. Sí, he encontrado esto. Pero se pierden el caso que señaló @whuber. Incluso proporcionan un ejemplo de Bernoulli con p general p! (base de la p. 4). Estoy extendiendo mi respuesta para cubrir el caso p=1/2 1/2 también.
Alecos Papadopoulos
Sí, vi que consideraron el Bernoulli pero no consideraron ese caso especial. Creo que la mención de la distinción para el Bernoulli escalado (caso dicotómico de igual problema) es una de las razones (entre otras) por la cual es valioso que se debata aquí en respuesta (en lugar de solo en un comentario). se puede buscar
Glen_b -Reinstate Monica

Respuestas:

20

Para las dependencias que surgen cuando consideramos la varianza de la muestra, escribimos

(n1)s2=i=1n((Xiμ)(x¯μ))2

=i=1n(Xiμ)22i=1n((Xiμ)(x¯μ))+i=1n(x¯μ)2

y después de una pequeña manipulación,

=i=1n(Xiμ)2n(x¯μ)2

Por lo tanto

n(s2σ2)=nn1i=1n(Xiμ)2nσ2nn1n(x¯μ)2

Manipulando,

n(s2σ2)=nn1i=1n(Xiμ)2nn1n1σ2nn1n(x¯μ)2

=nnn11ni=1n(Xiμ)2nn1n1σ2nn1n(x¯μ)2

=nn1[n(1ni=1n(Xiμ)2σ2)]+nn1σ2nn1n(x¯μ)2

El término convierte en unidad asintóticamente. El término es determinista y se pone a cero como .n/(n1)nn1σ2n

También tenemos . El primer componente converge en distribución a Normal, el segundo converge en probabilidad a cero. Luego, según el teorema de Slutsky, el producto converge en probabilidad a cero,n(x¯μ)2=[n(x¯μ)](x¯μ)

n(x¯μ)2p0

Nos quedamos con el término

[n(1ni=1n(Xiμ)2σ2)]

Alertado por un ejemplo letal ofrecido por @whuber en un comentario a esta respuesta , queremos asegurarnos de que no sea constante. Whuber señaló que si es un Bernoulli entonces esta cantidad es una constante. Entonces, excluyendo las variables para las cuales esto sucede (quizás otras dicotómicas, ¿no solo binario?), Para el resto tenemos(Xiμ)2Xi(1/2)0/1

E(Xiμ)2=σ2,Var[(Xiμ)2]=μ4σ4

y entonces el término bajo investigación es un tema habitual del Teorema del Límite Central clásico, y

n(s2σ2)dN(0,μ4σ4)

Nota: el resultado anterior, por supuesto, también es válido para muestras distribuidas normalmente, pero en este último caso también tenemos disponible un resultado de distribución de chi-cuadrado de muestra finita.

Alecos Papadopoulos
fuente
3
+1 No hay razón para verificar las distribuciones dicotómicas generales porque todas son versiones a escala y ubicación del Bernoulli: el análisis para el Bernoulli es suficiente. Mis simulaciones (con tamaños de muestra de ) confirman el resultado . 101000χ12
whuber
@whuber Gracias por revisar. Tienes razón, por supuesto, sobre que Benroulli es la madre de todos ellos.
Alecos Papadopoulos
10

Ya tiene una respuesta detallada a su pregunta, pero permítame ofrecerle otra. En realidad, es posible una prueba más corta basada en el hecho de que la distribución de

S2=1n1i=1n(XiX¯)2

no depende de , digamos. Asintóticamente, tampoco importa si cambiamos el factor a , lo que haré por conveniencia. Entonces tenemosE(X)=ξ1n11n

n(S2σ2)=n[1ni=1nXi2X¯2σ2]

Y ahora asumimos sin pérdida de generalidad que y notamos queξ=0

nX¯2=1n(nX¯)2

tiene un límite de probabilidad cero, ya que el segundo término está limitado en probabilidad (por el CLT y el teorema de mapeo continuo), es decir, es . El resultado asintótico ahora se desprende del teorema de Slutzky y el CLT, ya queOp(1)

n[1nXi2σ2]DN(0,τ2)

donde . Y eso lo hará.τ2=Var{X2}=E(X4)(E(X2))2

JohnK
fuente
Esto es ciertamente más económico. Pero reconsidere cuán inocuo es el supuesto . Por ejemplo, excluye el caso de una muestra de Bernoulli ( ), y como menciono al final de mi respuesta, para dicha muestra, este resultado asintótico no se cumple. E(X)=0p=1/2
Alecos Papadopoulos
@AlecosPapadopoulos De hecho, pero los datos siempre pueden estar centrados, ¿verdad? Me refiero a y podemos trabajar con estas variables. Para el caso de Bernoulli, ¿hay algo que nos impida hacerlo?
i=1n(Xiμ(X¯μ))2=i=1n(XiX¯)2
JohnK
@AlecosPapadopoulos Oh sí, veo el problema.
JohnK
He escrito un pequeño artículo sobre el tema, creo que es hora de subirlo a mi blog. Te notificaré en caso de que estés interesado en leerlo. La distribución asintótica de la varianza de la muestra en este caso es interesante, y aún más la distribución asintótica de la desviación estándar de la muestra. Estos resultados son válidos para cualquier variable aleatoria dicotómica 1/2. p=1/2
Alecos Papadopoulos
1
Pregunta tonta, pero ¿cómo podemos suponer que es auxiliar si X i no es normal? ¿O es S 2 siempre auxiliar (parametrización de la media de wrt, supongo) pero solo independiente de la media de la muestra cuando la media de la muestra es una estadística completa suficiente (es decir, normalmente distribuida) por el teorema de Basu? S2XiS2
Chill2Macht
3

Las excelentes respuestas de Alecos y JohnK ya derivan el resultado que busca , pero me gustaría señalar algo más sobre la distribución asintótica de la varianza de la muestra.

Es común ver resultados asintóticos presentados utilizando la distribución normal, y esto es útil para establecer los teoremas. Sin embargo, en términos prácticos, el propósito de una distribución asintótica para una estadística de muestra es que le permite obtener una distribución aproximada cuando es grande. Hay muchas opciones que podría hacer para su aproximación de muestra grande, ya que muchas distribuciones tienen la misma forma asintótica. En el caso de la varianza muestral, en mi opinión, una distribución aproximada excelente para n grande viene dada por:nn

Sn2σ2Chi-Sq(df=DFn)DFn,

DFn2/V(Sn2/σ2)=2n/(κ(n3)/(n1))κ=μ4/σ4es el parámetro de curtosis. Esta distribución es asintóticamente equivalente a la aproximación normal derivada del teorema (la distribución de chi cuadrado converge a la normal ya que los grados de libertad tienden al infinito). A pesar de esta equivalencia, esta aproximación tiene varias otras propiedades que le gustaría que tuviera su distribución aproximada:

  • A diferencia de la aproximación normal derivada directamente del teorema, esta distribución tiene el soporte correcto para la estadística de interés. La varianza muestral no es negativa, y esta distribución tiene soporte no negativo.

  • κ=3DFn=n1


Derivación del resultado anterior: los resultados de distribución aproximados para la media y la varianza de la muestra se analizan extensamente en O'Neill (2014) , y este documento proporciona derivaciones de muchos resultados, incluida la distribución aproximada actual.

Esta derivación comienza con el resultado limitante en la pregunta:

n(Sn2σ2)N(0,σ4(κ1)).

Reorganizando este resultado obtenemos la aproximación:

Sn2σ2N(1,κ1n).

DF

Chi-Sq(DF)DF1DFN(DF,2DF)=N(1,2DF).

DFn2/V(Sn2/σ2)DFn2n/(κ1)

Reinstalar a Mónica
fuente
Una pregunta empíricamente interesante es cuál de estos dos resultados asintóticos funciona mejor en casos de muestras finitas bajo varias distribuciones de datos subyacentes.
lzstat
Sí, creo que sería un estudio de simulación muy interesante (y publicable). Dado que la fórmula actual se basa en la corrección de curtosis de la varianza de la varianza de la muestra, esperaría que el resultado actual funcionara mejor cuando tiene una distribución subyacente con un parámetro de curtosis que está lejos de ser mesocurtico (es decir, cuando la curtosis) la corrección es lo más importante). Dado que la curtosis debería estimarse a partir de la muestra, es una pregunta abierta sobre cuándo habrá una mejora sustancial en el rendimiento general.
Vuelve a instalar a Monica el