ANTECEDENTES: Salte con seguridad: está aquí como referencia y para legitimar la pregunta.
La apertura de este documento dice:
"Famosa prueba de contingencia chi-cuadrado de Karl Pearson se deriva de otra estadística, llamada la estadística z, basado en la distribución Normal. Las versiones más simples de se pueden demostrar ser matemáticamente idéntica a pruebas z equivalentes. Las pruebas producen el mismo resultado en todas las circunstancias. Para todos los efectos, "chi-cuadrado" podría llamarse "z-cuadrado". Los valores críticos de para un grado de libertad son el cuadrado de los valores críticos correspondientes de z ".
Esto se ha afirmado varias veces en CV ( aquí , aquí , aquí y otros).
Y de hecho podemos demostrar que es equivalente acon:
Digamos que y que y encuentre la densidad de utilizando el método :
. El problema es que no podemos integrar de forma cercana la densidad de la distribución normal. Pero podemos expresarlo:
Como los valores de la normal son simétricos:
. Igualando esto a lapdfde lo normal (ahora laxen lapdfserá√ para enchufarlo en ele - x 2 parte de la normalpdf); y recordando incluir1 al final:
Compare con el pdf del chi cuadrado:
Desde , para1df, hemos derivado exactamente lapdfdel chi cuadrado.
Además, si llamamos a la función prop.test()
en R, estamos invocando la misma prueba como si decidiéramos .chisq.test()
LA PREGUNTA:
Así que obtengo todos estos puntos, pero todavía no sé cómo se aplican a la implementación real de estas dos pruebas por dos razones:
Una prueba z no es al cuadrado.
Las estadísticas de prueba reales son completamente diferentes:
El valor de la estadística de prueba para un es:
donde
= estadística de prueba acumulativa de Pearson, que asintóticamente se acerca a unadistribución χ 2 . O i = el número de observaciones de tipo i ; N = número total de observaciones; E i = N p i = la frecuencia esperada (teórica) de tipo i , afirmada por la hipótesis nula de que la fracción de tipo i en la población es p i ; n = el número de celdas en la tabla.
Por otro lado, el estadístico de prueba para una prueba es:
conp=x1 , dondex1yx2son el número de "éxitos", sobre el número de sujetos en cada uno de los niveles de las variables categóricas, es decir,n1yn2.
Esta fórmula parece basarse en la distribución binomial.
Estas dos estadísticas de pruebas son claramente diferentes y dan como resultado diferentes resultados para las estadísticas de prueba reales, así como para los valores p : 5.8481
para y para la prueba z, donde 2.4183 2 = 5.84817 (gracias, @ mark999 ) El valor p para la prueba χ 2 es , mientras que para la prueba z es . La diferencia se explica por dos colas versus una cola: 0.01559 / 2 = 0.007795 (gracias @amoeba).2.4183
0.01559
0.0077
Entonces, ¿a qué nivel decimos que son lo mismo?
fuente
chisq.test()
, have you tried usingcorrect=FALSE
?Respuestas:
Let us have a 2x2 frequency table where columns are two groups of respondents and rows are the two responses "Yes" and "No". And we've turned the frequencies into the proportions within group, i.e. into the vertical profiles:
Remember thatp=n1p1+n2p2n1+n2 , the element of the weighted average profile of the two profiles
(p1,q1)
and(p2,q2)
, and plug it in the formula, to obtainDivide both numerator and denominator by the(n21n2+n1n22) and get
the squared z-statistic of the z-test of proportions for "Yes" response.
Thus, the
2x2
homogeneity Chi-square statistic (and test) is equivalent to the z-test of two proportions. The so called expected frequencies computed in the chi-square test in a given column is the weighted (by the groupn
) average vertical profile (i.e. the profile of the "average group") multiplied by that group'sn
. Thus, it comes out that chi-square tests the deviation of each of the two groups profiles from this average group profile, - which is equivalent to testing the groups' profiles difference from each other, which is the z-test of proportions.This is one demonstration of a link between a variables association measure (chi-square) and a group difference measure (z-test statistic). Attribute associations and group differences are (often) the two facets of the same thing.
(Showing the expansion in the first line above, By @Antoni's request):
fuente