Estoy mirando una hoja de Excel que dice estar calculando el , pero no reconozco esta forma de hacerlo, y me preguntaba si me falta algo.
Aquí están los datos que está analizando:
+------------------+----------+----------+
| Total Population | Observed | Expected |
+------------------+----------+----------+
| 2000 | 42 | 32.5 |
| 2000 | 42 | 32.5 |
| 2000 | 25 | 32.5 |
| 2000 | 21 | 32.5 |
+------------------+----------+----------+
Y aquí están las sumas que hace para cada grupo para calcular chi cuadrado:
P = (sum of all observed)/(sum of total population) = 0.01625
A = (Observed - (Population * P)) ^2
B = Total Population * P * (1-P)
ChiSq = A/B
Entonces, para cada grupo, el es:
2.822793
2.822793
1.759359
4.136448
Y la plaza del total de Chi es: 11.54139
.
Sin embargo, cada ejemplo que he visto de calcular el es completamente diferente de esto. Lo haría para cada grupo:
chiSq = (Observed-Expected)^2 / Expected
Y por lo tanto, para el ejemplo anterior, obtendría un valor de chi cuadrado total de 11.3538
.
Mi pregunta es: ¿por qué en la hoja de Excel están calculando de esta manera? ¿Es este un enfoque reconocido?
ACTUALIZAR
Mi razón para querer saber esto es que estoy tratando de replicar estos resultados en el lenguaje R. Estoy usando la función chisq.test y no sale con el mismo número que la hoja de Excel. Entonces, si alguien sabe cómo hacer este enfoque en R, ¡sería muy útil!
ACTUALIZACIÓN 2
Si alguien está interesado, así es como lo calculé en R:
res <- matrix(c((2000-42), 42, (2000-42), 42, (2000-25), 25, (2000-21), 21), 2, 4)
chisq.test(res)
fuente
x=c(42,42,25,21);chisq.test(cbind(x,2000-x))
Respuestas:
Esto resulta ser bastante sencillo.
Este es claramente un muestreo binomial. Hay dos formas de verlo.
Método 1, el de la hoja de cálculo, para tratar los recuentos observados como , que puede aproximarse como . Como tal, son aproximadamente normales y las 's son independientes, entonces (aproximadamente) .Xi ∼Bin(Ni,pi) N(μi=Ni⋅pi,σ2i=Ni⋅pi(1−pi)) Zi=(Xi−μi)/σi Z ∑iZ2i∼χ2
(Si las p se basan en recuentos observados, entonces las no son independientes, pero siguen siendo chi-cuadrado con un grado menos de libertad).Z
Método 2: su uso de la forma de chi-cuadrado también funciona, pero requiere que tenga en cuenta no solo a aquellos en la categoría que ha etiquetado como 'Observados' sino también a aquellos que no están en esa categoría:(O−E)2/E
Donde las para la primera columna son como las tiene, y las de la segunda columna sonE Ni(1−pi)
... y luego suma sobre ambas columnas.(O−E)2/E
Las dos formas son algebraicamente equivalentes. Tenga en cuenta que . Considere la fila i del chi-cuadrado:1/p+1/(1−p)=1/p(1−p) th
Lo que significa que debe obtener la misma respuesta en ambos sentidos, hasta el error de redondeo.
Veamos:
Chi-cuadrado = 11.353846 + 0.187548 = 11.54139
Lo que coincide con su respuesta.
fuente