¿A qué nivel es una prueba

15

ANTECEDENTES: Salte con seguridad: está aquí como referencia y para legitimar la pregunta.

La apertura de este documento dice:

"Famosa prueba de contingencia chi-cuadrado de Karl Pearson se deriva de otra estadística, llamada la estadística z, basado en la distribución Normal. Las versiones más simples de χ2 se pueden demostrar ser matemáticamente idéntica a pruebas z equivalentes. Las pruebas producen el mismo resultado en todas las circunstancias. Para todos los efectos, "chi-cuadrado" podría llamarse "z-cuadrado". Los valores críticos de χ2 para un grado de libertad son el cuadrado de los valores críticos correspondientes de z ".

Esto se ha afirmado varias veces en CV ( aquí , aquí , aquí y otros).

Y de hecho podemos demostrar que χ1df2 es equivalente aX2conXN(0,1):

Digamos que XN(0,1) y que Y=X2 y encuentre la densidad de Y utilizando el método cdf :

p(Yy)=p(X2y)=p(yxy). El problema es que no podemos integrar de forma cercana la densidad de la distribución normal. Pero podemos expresarlo:

FX(y)=FX(y)FX(y).
Tomando la derivada:

fX(y)=FX(y)12y+FX(y)12y.

Como los valores de la normal son simétricos:pdf

. Igualando esto a lapdfde lo normal (ahora laxen lapdfseráfX(y)=FX(y)1ypdfxpdf para enchufarlo en ele - x 2y parte de la normalpdf); y recordando incluir1ex22pdf al final:1y

fX(y)=FX(y)1y=12πey21y=12πey2y121

Compare con el pdf del chi cuadrado:

fX(x)=12ν/2Γ(ν2)ex2xν21

Desde , para1df, hemos derivado exactamente lapdfdel chi cuadrado.Γ(1/2)=π1pdf

Además, si llamamos a la función prop.test()en R, estamos invocando la misma prueba como si decidiéramos .χ2chisq.test()

LA PREGUNTA:

Así que obtengo todos estos puntos, pero todavía no sé cómo se aplican a la implementación real de estas dos pruebas por dos razones:

  1. Una prueba z no es al cuadrado.

  2. Las estadísticas de prueba reales son completamente diferentes:

El valor de la estadística de prueba para un χ2 es:

dondeχ2=i=1n(OiEi)2Ei=Ni=1npi(Oi/Npipi)2

= estadística de prueba acumulativa de Pearson, que asintóticamente se acerca a unadistribución χ 2 . O i = el número de observaciones de tipo i ; N = número total de observaciones; E i = N p i = la frecuencia esperada (teórica) de tipo i , afirmada por la hipótesis nula de que la fracción de tipo i en la población es p i ; n = el número de celdas en la tabla.χ2χ2OiiNEiNpiiipin

Por otro lado, el estadístico de prueba para una prueba es:z

conp=x1Z=x1n1x2n2p(1p)(1/n1+1/n2) , dondex1yx2son el número de "éxitos", sobre el número de sujetos en cada uno de los niveles de las variables categóricas, es decir,n1yn2.p=x1+x2n1+n2x1x2n1n2

Esta fórmula parece basarse en la distribución binomial.

Estas dos estadísticas de pruebas son claramente diferentes y dan como resultado diferentes resultados para las estadísticas de prueba reales, así como para los valores p : 5.8481para y para la prueba z, donde 2.4183 2 = 5.84817 (gracias, @ mark999 ) El valor p para la prueba χ 2 es , mientras que para la prueba z es . La diferencia se explica por dos colas versus una cola: 0.01559 / 2 = 0.007795 (gracias @amoeba).χ22.41832.41832=5.84817χ20.015590.00770.01559/2=0.007795

Entonces, ¿a qué nivel decimos que son lo mismo?

Antoni Parellada
fuente
Pero estas son dos pruebas idénticas. Z al cuadrado es la estadística de chi-cuadrado. Le permite tener una tabla de frecuencia de 2x2 donde las columnas son los dos grupos y las filas son "éxito" y "falla". Entonces, las llamadas frecuencias esperadas de la prueba de chi-cuadrado en una columna dada es el perfil de columna (grupo) promedio ponderado (por el grupo N) multiplicado por el N. de ese grupo. Por lo tanto, resulta que la prueba de chi-cuadrado prueba la desviación de cada uno de los dos grupos de perfiles de este perfil de grupo promedio, que es equivalente a probar la diferencia de los perfiles de los grupos entre sí, la prueba z de proporciones.
ttnphns
In the example on the last hyperlink the χ2 is almost the square of the z-test statistic, but not quite, and the p-values are different. Also, when you look at the formulas for the rest statistics above, is it truly immediate that they are identical? Or even one the square of the other?
Antoni Parellada
2
In chisq.test(), have you tried using correct=FALSE?
mark999
1
Indeed, Antoni. Both tests exist with or without the Yates. Could it be that you compute one with but the other without it?
ttnphns
1
Thank you! You were (predictably) correct. With the Yates correction off, one is just the square of the other. I edited the question accordingly, although a bit fast. I still would like to prove algebraically that both test statistics are the same (or one the square of the other), and understand why the p-values are different.
Antoni Parellada

Respuestas:

12

Let us have a 2x2 frequency table where columns are two groups of respondents and rows are the two responses "Yes" and "No". And we've turned the frequencies into the proportions within group, i.e. into the vertical profiles:

      Gr1   Gr2  Total
Yes   p1    p2     p
No    q1    q2     q
      --------------
     100%  100%   100%
      n1    n2     N

χ2 of this table, after you substitute proportions instead of frequencies in its formula, looks like this:

n1[(p1p)2p+(q1q)2q]+n2[(p2p)2p+(q2q)2q]=n1(p1p)2+n2(p2p)2pq.

Remember that p=n1p1+n2p2n1+n2, the element of the weighted average profile of the two profiles (p1,q1) and (p2,q2), and plug it in the formula, to obtain

...=(p1p2)2(n12n2+n1n22)pqN2

Divide both numerator and denominator by the (n12n2+n1n22) and get

(p1p2)2pq(1/n1+1/n2)=Z2,

the squared z-statistic of the z-test of proportions for "Yes" response.

Thus, the 2x2 homogeneity Chi-square statistic (and test) is equivalent to the z-test of two proportions. The so called expected frequencies computed in the chi-square test in a given column is the weighted (by the group n) average vertical profile (i.e. the profile of the "average group") multiplied by that group's n. Thus, it comes out that chi-square tests the deviation of each of the two groups profiles from this average group profile, - which is equivalent to testing the groups' profiles difference from each other, which is the z-test of proportions.

This is one demonstration of a link between a variables association measure (chi-square) and a group difference measure (z-test statistic). Attribute associations and group differences are (often) the two facets of the same thing.


(Showing the expansion in the first line above, By @Antoni's request):

n1[(p1p)2p+(q1q)2q]+n2[(p2p)2p+(q2q)2q]=n1(p1p)2qpq+n1(q1q)2ppq+n2(p2p)2qpq+n2(q2q)2ppq=n1(p1p)2(1p)+n1(1p11+p)2p+n2(p2p)2(1p)+n2(1p21+p)2ppq=n1(p1p)2(1p)+n1(pp1)2p+n2(p2p)2(1p)+n2(pp2)2ppq=[n1(p1p)2][(1p)+p]+[n2(p2p)2][(1p)+p]pq=n1(p1p)2+n2(p2p)2pq.

ttnphns
fuente
@ttnphs This is great! Any chance you could clarify the intermediate step in the first equation (χ2) formula - I don't see how the q's go away after the equal sign.
Antoni Parellada
@ttnphs When I expand it I get n1[(p1p)2p+(q1q)2q]+n2[(p2p)2p+(q2q)2q]=n1(q(p2+p(2p12q1+p12)+p(q2+q12)pq)+n2(q(p2+p(2p22q2)+p22)+p(q2+q22)pq)
Antoni Parellada
@ttnphs ... Or some reference so it's less work to type the latex... And I'll promptly and happily 'accept' the answer...
Antoni Parellada
@Antoni, expansion inserted.
ttnphns
@ttnphns Awesome!
Antoni Parellada