¿Por qué la prueba de independencia usa la distribución chi-cuadrado?

12

La prueba de bondad de ajuste utiliza la siguiente estadística : χ 2 0 = n i = 1 ( O i - E i ) 2χ2 En la prueba, la concesión de que se cumplen las condiciones, se utiliza elchi2-distribuciónpara calcular el valor de p que dado elH0es cierto que uno observar un valor tal en una muestra representativa del mismo tamaño.

χ02=i=1n(OiEi)2Ei
χ2H0

Sin embargo, para que una estadística siga una distribución χ 2 (con n - 1 grados de libertad), debe ser cierto que: n i = 1 ( O i - E i ) 2χ02χ2n1 paraZinormal normal independiente(Wikipedia). Las condiciones para la prueba son las siguientes (nuevamente, deWikipedia):

i=1n(OiEi)2Ei=i=1n1Zi2
Zi
  1. Muestra representativa de población
  2. Gran tamaño de la muestra
  3. El recuento de células esperado es suficientemente grande
  4. Independencia entre cada categoría.

A partir de las condiciones (1,2) está claro que satisfacemos las condiciones para la inferencia de la muestra a la población. (3) parece ser una suposición requerida porque el recuento discreto , que está en el denominador, no da como resultado una distribución casi continua para cada Z i y si no es lo suficientemente grande, hay un error que puede corregirse con la corrección de Yates - esto parece ser el hecho de que una distribución discreta es básicamente un 'derribado' continuo, por lo que el cambio de 1 / 2 para cada uno corrige esto.EiZi1/2

La necesidad de (4) parece ser útil más tarde, pero no puedo ver cómo.

Al principio, pensé que es necesario para que la estadística coincida con la distribución. Esto me lleva a la suposición cuestionable de queOi-EiN(0,Zi=OiEiEi, que de hecho estaba mal. De hecho, de la reducción de la dimensión para dos lados de la igualdad denan-1está claroque este no puede ser el caso.OiEiN(0,Ei)nn1

ZiOiEiEiχ02=i=1n1Zi2Zi

χ02χ2(OiEi)2EiZi2Zi

VF1
fuente
1
OiEiN(0,Ei)χ2χ2χ2χ2
1
¡De la igualdad de dos sumas de cuadrados no puedes concluir que las raíces cuadradas son iguales término por término! Debido a que ese es el caso de los meros números, seguramente también es el caso de las variables aleatorias.
whuber
1
(Wi),i=1,,nχν1,ν2,,νnν1+ν2++νn=n1νi1iWii=1nWi2χ2(n1)
1
n1n
1
n

Respuestas:

6

XλXλ

(Xλ)2λ
z2

z2

izi2=ZIZ

ZQZ
Q

i(ziz¯)2
Placidia
fuente
Lo siento, pero definitivamente me has perdido en "Si en cambio, lo haces ..."
VF1
@ VF1, hice un cambio, así que espero que sea más claro. El teorema de Cochrane es la respuesta a su pregunta de cuándo una suma de cuadrados con normales tiene una distribución de chi-cuadrado.
Placidia
1
Bien, voy a echar un vistazo a esto. Sin embargo, dejaré la pregunta abierta, en caso de que alguien más tenga algo que agregar.
VF1
1
Por lo general, el tamaño de la muestra es fijo. Eso significa que es imposible que cualquiera de las entradas pueda seguir una distribución de Poisson. Por lo tanto, el atractivo de una distribución de Poisson parece ser solo otra aproximación, y parece dejarnos justo donde comenzamos.
whuber
1

χ2

Zi=OiEiEi

OiEi(StandardErrorOfTheObserved)

(StandardErrorOfTheObserved)EiZi=OiEiEi

De todos modos, puede crear una estadística de prueba del formulario

Z=|Z1|+|Z2|+|Z3|+...

χ2=Z12+Z22+Z32+...

χ2χ2

χ2

CamilB
fuente