Extraña forma de calcular chi-cuadrado en Excel vs R

9

Estoy mirando una hoja de Excel que dice estar calculando el , pero no reconozco esta forma de hacerlo, y me preguntaba si me falta algo.χ2

Aquí están los datos que está analizando:

+------------------+----------+----------+
| Total Population | Observed | Expected |
+------------------+----------+----------+
|             2000 |       42 | 32.5     |
|             2000 |       42 | 32.5     |
|             2000 |       25 | 32.5     |
|             2000 |       21 | 32.5     |
+------------------+----------+----------+

Y aquí están las sumas que hace para cada grupo para calcular chi cuadrado:

P = (sum of all observed)/(sum of total population) = 0.01625
A = (Observed - (Population * P)) ^2
B = Total Population * P * (1-P)
ChiSq = A/B

Entonces, para cada grupo, el es:χ2

2.822793
2.822793
1.759359
4.136448

Y la plaza del total de Chi es: 11.54139.

Sin embargo, cada ejemplo que he visto de calcular el es completamente diferente de esto. Lo haría para cada grupo:χ2

chiSq = (Observed-Expected)^2 / Expected

Y por lo tanto, para el ejemplo anterior, obtendría un valor de chi cuadrado total de 11.3538.

Mi pregunta es: ¿por qué en la hoja de Excel están calculando de esta manera? ¿Es este un enfoque reconocido?χ2

ACTUALIZAR

Mi razón para querer saber esto es que estoy tratando de replicar estos resultados en el lenguaje R. Estoy usando la función chisq.test y no sale con el mismo número que la hoja de Excel. Entonces, si alguien sabe cómo hacer este enfoque en R, ¡sería muy útil!

ACTUALIZACIÓN 2

Si alguien está interesado, así es como lo calculé en R:

res <- matrix(c((2000-42), 42, (2000-42), 42, (2000-25), 25, (2000-21), 21), 2, 4)
chisq.test(res)
usuario1578653
fuente
El enfoque en su segunda actualización debe dar la estadística correcta. Sin embargo, si sus expectativas no se basan en la suma de lo observado, podría tener un problema porque el valor p allí condiciona eso. Sin embargo, noto que lo esperado y lo observado tienen el mismo total (es poco probable que suceda por casualidad), por lo que probablemente todo esto esté bien. Podría hacerlo más fácilmente de esta manera:x=c(42,42,25,21);chisq.test(cbind(x,2000-x))
Glen_b -Reinstale a Monica
@Glen_b En la hoja de Excel, creo que las expectativas se resuelven haciendo Población total * el valor 'P' que calculé anteriormente. ¿Esto va a ser un problema? Además, la población total varía: la mayoría de las veces es 2000, pero en realidad podría ser cualquier número. La hoja de Excel que intento recrear aquí en realidad no tiene en cuenta el valor p, por lo que si la estadística no se verá afectada por esto, tal vez no sea un problema ...
user1578653
La pregunta se reduce a de dónde vienen los p. ¿Implican mirar el recuento total observado?
Glen_b -Reinstale a Monica
Bueno, para mí se parece a la Ps y, por lo tanto, lo esperado se basa tanto en el recuento total observado como en la población total ... Sin embargo, en todos los ejemplos que me dieron en la hoja de Excel, el valor esperado también parece coincidir con el recuento total observado / número de recuentos.
user1578653
Si las p se basan en los recuentos de esa manera, por supuesto, las expectativas siguen. Si ese es el caso, parece que los grados de libertad, etc., están bien como lo hizo en R, pero algunas palabras de mi explicación pueden necesitar cambiar.
Glen_b -Reinstale a Monica

Respuestas:

13

Esto resulta ser bastante sencillo.

Este es claramente un muestreo binomial. Hay dos formas de verlo.

Método 1, el de la hoja de cálculo, para tratar los recuentos observados como , que puede aproximarse como . Como tal, son aproximadamente normales y las 's son independientes, entonces (aproximadamente) .XiBin(Ni,pi)N(μi=Nipi,σi2=Nipi(1pi))Zi=(Xiμi)/σiZiZi2χ2

(Si las p se basan en recuentos observados, entonces las no son independientes, pero siguen siendo chi-cuadrado con un grado menos de libertad).Z

Método 2: su uso de la forma de chi-cuadrado también funciona, pero requiere que tenga en cuenta no solo a aquellos en la categoría que ha etiquetado como 'Observados' sino también a aquellos que no están en esa categoría:(OE)2/E

+------------+------+-------+
| Population | In A | Not A |
+------------+------+-------+
|       2000 |   42 |  1958 |
|       2000 |   42 |  1958 |
|       2000 |   25 |  1975 |
|       2000 |   21 |  1979 |
+ -----------+------+-------+

Donde las para la primera columna son como las tiene, y las de la segunda columna sonENi(1pi)

... y luego suma sobre ambas columnas.(OE)2/E

Las dos formas son algebraicamente equivalentes. Tenga en cuenta que . Considere la fila i del chi-cuadrado:1/p+1/(1p)=1/p(1p)th

(Xiμi)2σi2=(XiNipi)2Nipi(1pi)=(XiNipi)2Nipi+(XiNipi)2Ni(1pi)=(XiNipi)2Nipi+(NiNi+NipiXi)2Ni(1pi)=(XiNipi)2Nipi+(NiXi(NiNipi))2Ni(1pi)=(XiNipi)2Nipi+((NiXi)Ni(1pi))2Ni(1pi)=(Oi(A)Ei(A))2Ei(A)+(Oi(A¯)Ei(A¯))2Ei(A¯)

Lo que significa que debe obtener la misma respuesta en ambos sentidos, hasta el error de redondeo.

Veamos:

             Observed             Expected                 (O-E)^2/E          
  Ni        A     not A          A      not A             A           not A      
 2000     42         1958      32.5     1967.5       2.776923077     0.045870394     
 2000     42         1958      32.5     1967.5       2.776923077     0.045870394     
 2000     25         1975      32.5     1967.5       1.730769231     0.028589581     
 2000     21         1979      32.5     1967.5       4.069230769     0.067217281     

                                            Sum     11.35384615      0.187547649  

Chi-cuadrado = 11.353846 + 0.187548 = 11.54139

Lo que coincide con su respuesta.

Glen_b -Reinstate a Monica
fuente
1
¡Gracias por tu ayuda! No soy matemático / estadístico, así que esto me confundió inicialmente, pero su explicación es muy fácil de entender.
user1578653