Tengo tres grupos de datos, cada uno con una distribución binomial (es decir, cada grupo tiene elementos que son exitosos o fallidos). No tengo una probabilidad pronosticada de éxito, sino que solo puedo confiar en la tasa de éxito de cada uno como una aproximación a la verdadera tasa de éxito. Solo he encontrado esta pregunta , que está cerca pero no parece abordar exactamente el escenario.
Para simplificar la prueba, digamos que tengo 2 grupos (3 pueden ampliarse a partir de este caso base).
- Ensayos del grupo 1: = 2455
- Grupo 2 ensayos: = 2730
- Grupo 1 exitoso: = 1556
- Grupo 2 exitoso: = 1671
No tengo una probabilidad de éxito esperada, solo lo que sé de las muestras. Entonces, mi tasa de éxito implícita para los dos grupos es:
- Tasa de éxito del Grupo 1: = 1556/2455 = 63.4%
- Grupo 2 tasa de éxito: = 1671/2730 = 61.2%
La tasa de éxito de cada una de las muestras es bastante cercana. Sin embargo, mis tamaños de muestra también son bastante grandes. Si reviso el CDF de la distribución binomial para ver qué tan diferente es de la primera (donde supongo que la primera es la prueba nula) tengo una probabilidad muy pequeña de que se pueda lograr la segunda.
En Excel:
1-BINOM.DIST (1556,2455,61.2%, VERDADERO) = 0.012
Sin embargo, esto no tiene en cuenta ninguna variación del primer resultado, solo supone que el primer resultado es la probabilidad de la prueba.
¿Hay una mejor manera de probar si estas dos muestras de datos son en realidad estadísticamente diferentes entre sí?
prop.test
:prop.test(c(1556, 1671), c(2455, 2730))
.Respuestas:
La solución es una simple búsqueda de Google: http://en.wikipedia.org/wiki/Statistical_hypothesis_testing
Por lo tanto, le gustaría probar la siguiente hipótesis nula contra la alternativa dada
H A : p 1 ≠ p 2H0:p1=p2 versusHA:p1≠p2
Entonces solo necesita calcular la estadística de prueba que es
donde .p^=n1p^1+n2p^2n1+n2
Entonces, en su problema, , , yp^1=.634 p^2=.612 n1=2455 n2=2730.
Una vez que calcule la estadística de prueba, solo necesita calcular el valor de región crítica correspondiente para comparar también su estadística de prueba. Por ejemplo, si está probando esta hipótesis con un nivel de confianza del 95%, debe comparar su estadística de prueba con el valor crítico de la región de (para esta prueba de dos colas).zα/2=1.96
Ahora, si entonces puede rechazar la hipótesis nula; de lo contrario, no podrá rechazar la hipótesis nula.z>zα/2
Bueno, esta solución funciona para el caso cuando está comparando dos grupos, pero no se generaliza al caso en el que desea comparar 3 grupos.
Sin embargo, podría usar una prueba de Chi cuadrado para comprobar si los tres grupos tienen proporciones iguales como lo sugiere @Eric en su comentario anterior: "¿Ayuda esta pregunta? Stats.stackexchange.com/questions/25299/ ... - Eric"
fuente
En R la respuesta se calcula como:
fuente
Solo un resumen:
Las respuestas de Dan y Abaumann sugieren probar bajo un modelo binomial donde la hipótesis nula es un modelo binomial único unificado con su media estimada a partir de los datos empíricos. En teoría, sus respuestas son correctas, pero necesitan una aproximación mediante la distribución normal, ya que la distribución del estadístico de prueba no sigue exactamente la distribución normal. Por lo tanto, solo es correcto para un gran tamaño de muestra.
Pero la respuesta de David indica una prueba no paramétrica usando la prueba de Fisher. La información está aquí: https://en.wikipedia.org/wiki/Fisher%27s_exact_test Y se puede aplicar a muestras pequeñas pero difíciles de calcular para muestras grandes.
Qué prueba usar y cuánto confía en su valor p es un misterio. Pero siempre hay sesgos en cualquier prueba para elegir.
fuente
fuente
En Python, statsmodels tiene una función llamada
proportions_ztest
. Aquí hay un ejemplo de su uso:Esto imprime:
fuente
Publicación original: la respuesta de Dan es realmente incorrecta, para no ofender a nadie. Una prueba z solo se usa si sus datos siguen una distribución normal estándar. En este caso, sus datos siguen una distribución binomial, por lo tanto, use una prueba de ji cuadrado si su muestra es grande o la prueba de Fisher si su muestra es pequeña.
Editar: Mi error, disculpas a @Dan. Una prueba z es válida aquí si sus variables son independientes. Si este supuesto no se cumple o se desconoce, una prueba z puede ser inválida.
fuente