Supongamos que tengo tres poblaciones con cuatro características mutuamente excluyentes. Tomo muestras aleatorias de cada población y construyo una tabla cruzada o tabla de frecuencias para las características que estoy midiendo. ¿Estoy en lo cierto al decir que:
Si quisiera probar si existe alguna relación entre las poblaciones y las características (por ejemplo, si una población tiene una frecuencia más alta de una de las características), debería realizar una prueba de ji cuadrado y ver si el resultado es significativo.
Si la prueba de ji cuadrado es significativa, solo me muestra que hay alguna relación entre las poblaciones y las características, pero no cómo están relacionadas.
Además, no todas las características deben estar relacionadas con la población. Por ejemplo, si las diferentes poblaciones tienen distribuciones significativamente diferentes de las características A y B, pero no de C y D, entonces la prueba de ji cuadrado puede volver a ser significativa.
Si quisiera medir si la población afecta o no a una característica específica, entonces puedo realizar una prueba para proporciones iguales (he visto que esto se llama prueba z, o como
prop.test()
enR
) solo en esa característica.
En otras palabras, ¿es apropiado usar el prop.test()
para determinar con mayor precisión la naturaleza de una relación entre dos conjuntos de categorías cuando la prueba de chi-cuadrado dice que hay una relación significativa?
Respuestas:
Respuesta muy corta:
La prueba de chi-cuadrado (
chisq.test()
en R) compara las frecuencias observadas en cada categoría de una tabla de contingencia con las frecuencias esperadas (calculadas como el producto de las frecuencias marginales). Se utiliza para determinar si las desviaciones entre los conteos observados y los esperados son demasiado grandes para atribuirlos al azar. La salida de la independencia se verifica fácilmente inspeccionando los residuos (pruebe?mosaicplot
o?assocplot
, pero también mire elvcd
paquete). Úselofisher.test()
para una prueba exacta (basándose en la distribución hipergeométrica).Laz
prop.test()
función en R permite comprobar si las proporciones son comparables entre grupos o no difieren de las probabilidades teóricas. Se le conoce como prueba porque la estadística de prueba se ve así:donde p = ( p 1 + p 2 ) / ( n 1 + n 2 ) , y los índices ( 1 , 2 ) se refieren a la primera y segunda línea de la tabla. En una tabla de contingencia bidireccional donde H 0 :pags^= ( p1+ p2) / ( n1+ n2) ( 1 , 2 ) H0 0:pags1= p2 χ2
Para el análisis de datos discretos con R, recomiendo encarecidamente el Manual R (y S-PLUS) para el Análisis de datos categóricos de Agresti (2002) , de Laura Thompson.
fuente
prop.test
ychisq.test
ambos usan el chi-cuadrado, lo que explicaría los valores p idénticos, así como también por qué en esta publicación en R-Bloggers tienen su propia función ad hoc.La prueba más poderosa para la igualdad de proporciones se llama prueba de Barnard para la superioridad .
fuente
prop.test
ychisq.test
ambos usan el chi-cuadrado, lo que explicaría los valores p idénticos, así como por qué en esta publicación en R-Bloggers tienen su propia función ad hoc.prop.test()
... se conoce como una prueba z en contraposición achisq.test()
. Más tarde, Keith dice: "Una prueba de chi-cuadrado para la igualdad de dos proporciones es exactamente lo mismo que una prueba z. (Es por eso que @chl obtiene exactamente el mismo valor p con ambas pruebas)"prop.test()
realidad solo llamachisq.test()
e imprime la salida de manera diferente.