Estamos probando una campaña de marketing por correo electrónico. En nuestra prueba inicial, enviamos dos tipos diferentes de correo electrónico y tuvimos un tercer grupo de control que no recibió un correo electrónico. Ahora estamos obteniendo "resultados" como proporción de usuarios que regresaron a nuestra aplicación. Aquí están los resultados:
Group | received e-mail | returned | %-returned
A | 16,895 | 934 | 5.53%
B | 17,530 | 717 | 4.09%
C | 42408 | 1618 | 3.82%
Parece que el Grupo A en realidad puede ser mejor que B y C, pero ¿cuál es la prueba adecuada para mostrar esto?
Respuestas:
En una tabla como esta, puede dividir la estadística G producida por una prueba G, en lugar de calcular los OR o ejecutando una regresión logística. Aunque tienes que decidir cómo vas a particionarlo. Aquí el estadístico G, que es similar al X ^ 2 de Pearson y también sigue una distribución X ^ 2, es:
G = 2 * suma (OBS * ln (OBS / EXP)).
Primero calcule eso para la tabla general, en este caso: G = 76.42, en 2 df, que es altamente significativo (p <0.0001). Es decir que la tasa de retorno depende del grupo (A, B o C).
Luego, debido a que tiene 2 df, puede realizar dos pruebas G más pequeñas de 1 df (2x2). Sin embargo, después de realizar el primero, debe contraer las filas de los dos niveles utilizados en la primera prueba y luego usar esos valores para probarlos en el tercer nivel. Aquí, digamos que primero pruebas B contra C.
Esto produce una estadística G de 2.29 en 1 df, que no es significativa (p = 0.1300). Luego haga una nueva tabla, combinando las filas B y C. Ahora pruebe A contra B + C.
Esto produce un G-stat de 74.13, en 1 df, que también es altamente significativo (p <0.0001).
Puede verificar su trabajo agregando las dos estadísticas de prueba más pequeñas, que deberían ser iguales a la estadística de prueba más grande. Lo hace: 2.29 + 74.13 = 76.42
La historia aquí es que sus grupos B y C no son significativamente diferentes, pero ese grupo A tiene una tasa de retorno más alta que B y C combinados.
¡Espero que ayude!
También podría haber dividido la estadística G de manera diferente al comparar A con B primero, luego con C con A + B, o con A con C, luego con B con A + C. Además, puede expandir esto a 4 o más grupos, pero después de cada prueba debe contraer las dos filas que acaba de probar, con un número máximo de pruebas igual al df en su tabla original. Hay otras formas de particionar con tablas más complicadas. El libro de Agresti, "Análisis de datos categóricos", debe tener los detalles. Específicamente, su capítulo sobre inferencia para tablas de contingencia bidireccionales.
fuente
Simplemente calcularía las razones de probabilidades (o riesgo) entre el grupo A y B, entre B y C, y entre A y C y vería si son estadísticamente diferentes. No veo una razón para hacer una prueba de proporciones "omnibus" en este caso, ya que solo tiene tres grupos. Tres pruebas de chi-cuadrado también podrían hacer el truco.
Como algunos de los individuos han señalado en los comentarios a continuación, la regresión logística con contrastes planificados también funcionaría bien.
fuente