¿Por qué la distribución de varianza muestral es una distribución chi-cuadrado?

22

La declaración

La distribución muestral de la varianza muestral es una distribución chi-cuadrado con un grado de libertad igual a , donde n es el tamaño de la muestra (dado que la variable aleatoria de interés se distribuye normalmente).n1n

Fuente

Mi intuicion

Para mí tiene un sentido intuitivo 1) porque una prueba de chi-cuadrado parece una suma de cuadrados y 2) porque una distribución de Chi-cuadrado es solo una suma de distribución normal al cuadrado. Pero aún así, no lo entiendo bien.

Pregunta

¿Es cierto el enunciado? ¿Por qué?

Remi.b
fuente
1
La declaración inicial es falsa en general (es falsa por dos razones separadas). ¿Cuál es su fuente (falta su enlace) y qué dice realmente?
Glen_b -Reinstate Monica
Mi pregunta también es una reacción a una pregunta-respuesta en una clase introductoria de estadísticas para la cual el acceso está protegido. La pregunta es "¿Qué distribución es la distribución muestral de la varianza en la longitud del ala en las moscas?" y la respuesta es "Distribución chi-cuadrado"
Remi.b
1
La declaración citada en su primer comentario sigue siendo falsa en general. El comentario al final de la fuente es verdadero (con los supuestos necesarios): " cuando se toman muestras de tamaño n de una distribución normal con varianza , la distribución de muestreo de ( n - 1 ) s 2 / σ 2 tiene una distribución de chi-cuadrado con n-1 grados de libertad.σ2(n1)s2/σ2 "... La respuesta a la pregunta en su segundo comentario también será falsa, a menos que, supongo, alguien haya demostrado que la longitud del ala se distribuye normalmente. (¿Qué base podría haber para afirmar que esto es cierto?)
Glen_b -Reinstalar a Monica
Entonces supongamos que las alas están normalmente distribuidas, entonces la distribución de muestreo de estaría distribuida por chi-cuadrado. ¿Por que es esto entonces? (n1)s2/σ2
Remi.b
¿Sabe que una suma de cuadrados de iid N (0,1) variables aleatorias es chi-cuadrado con k df? ¿O es esa la parte de la que buscas pruebas? kk
Glen_b -Reinstate Monica

Respuestas:

27

[Asumiré de la discusión en su pregunta que está feliz de aceptar como un hecho que si son variables aleatorias independientes N ( 0 , 1 ) distribuidas idénticamente , entonces k i = 1 Z 2 iχ 2 k .]Zi,i=1,2,,kN(0,1)i=1kZi2χk2

Formalmente, el resultado que necesita se deriva del teorema de Cochran . (Aunque se puede mostrar de otras maneras)

Menos formalmente, considere que si supiéramos la media de la población y estimáramos la varianza sobre ella (en lugar de sobre la media de la muestra): , entoncess 2 0 /σ2=1s02=1ni=1n(Xiμ)2 , (Zi=(Xi-μ)/σ) que será1s02/σ2=1ni=1n(Xiμσ)2=1ni=1nZi2Zi=(Xiμ)/σ veces aχ 2 n variable aleatoria.1nχn2

El hecho de que se use la media de la muestra, en lugar de la media de la población ( ) hace que la suma de los cuadrados de las desviaciones sea menor, pero de tal manera que n i = 1 ( Z i ) 2Zi=(XiX¯)/σ (sobre el cual, ver el teorema de Cochran). Por lo tanto, en lugar de n s 2 0 / σ 2χ 2 n ahora tenemos ( n - 1 ) s 2 / σ 2χ 2 n - 1 .i=1n(Zi)2χn12ns02/σ2χn2(n1)s2/σ2χn12

Glen_b -Reinstate a Monica
fuente
@Glen_b ¿Puede dar una referencia para otras pruebas sobre este hecho? Realmente quiero saberlo.
Henry.L
¿De cuál de varios hechos está buscando una prueba?
Glen_b -Reinstate Monica
@Glen_b Los únicos dos métodos además del teorema de Cochran-Madow de demostrar este hecho de que la varianza muestral y la media muestral son estadísticamente independientes con una distribución de chi-cuadrado son: (1) la base canónica de Scheffe (Scheffe, 1959) (2) métodos acumulativos (O mgfs, que es equivalente a eso). Si conoces más métodos, realmente quiero conocerlos.
Henry.L
Un comentario más que quiero agregar es que, aunque se usa la media de la muestra, pero a veces queremos una potencia fija independiente de la varianza fija, este método se reemplaza por el método de dos etapas de Stein (1949).
Henry.L
X¯Xis