¿Qué prueba usar para comparar proporciones entre 3 grupos?

8

Estamos probando una campaña de marketing por correo electrónico. En nuestra prueba inicial, enviamos dos tipos diferentes de correo electrónico y tuvimos un tercer grupo de control que no recibió un correo electrónico. Ahora estamos obteniendo "resultados" como proporción de usuarios que regresaron a nuestra aplicación. Aquí están los resultados:

Group | received e-mail | returned | %-returned
A | 16,895 | 934 | 5.53%
B | 17,530 | 717 | 4.09%
C | 42408 | 1618 | 3.82%

Parece que el Grupo A en realidad puede ser mejor que B y C, pero ¿cuál es la prueba adecuada para mostrar esto?

thecity2
fuente
2
Recuerde que la desviación estándar de la proporción en un experimento binomial que involucra n resultados independientes con probabilidad de éxito p es p(1p)/n. Enchufar las estimaciones dep da errores estándar de 0.18%, 0.15% y 0.09%, respectivamente. (Estos valores se pueden estimar fácilmente con solo mirar los datos: no se necesita computadora). Debido a la diferencia5.53% - max(4.09,3.82)% = 1.44 % equivale a casi diez de cualquiera de esos errores estándar, el resultado es obvio que A tiene una tasa de retorno mayor que B o C y no se necesitan pruebas formales.
whuber
@whuber Solo una pregunta rápida de seguimiento. En este caso, se puede hacer la aproximación normal, pero qué pasaría si los% fueran aún más pequeños, digamos <1%. ¿Qué prueba tendría sentido en ese caso?
thecity2
1
Buena pregunta. Lo que importa no son los porcentajes sino los recuentos reales. No se preocupe hasta que esos recuentos (o sus complementos, los números no recibidos) sean de alrededor de 30 o menos (dependiendo de cuán claros sean los resultados, a veces incluso los recuentos de 5 pueden estar bien). Cuando los porcentajes y los recuentos son bajos, la aproximación de Poisson es excelente y debe considerar la regresión logística, como recomienda @gung. Ese también es un buen enfoque general.
whuber

Respuestas:

2

En una tabla como esta, puede dividir la estadística G producida por una prueba G, en lugar de calcular los OR o ejecutando una regresión logística. Aunque tienes que decidir cómo vas a particionarlo. Aquí el estadístico G, que es similar al X ^ 2 de Pearson y también sigue una distribución X ^ 2, es:

G = 2 * suma (OBS * ln (OBS / EXP)).

Primero calcule eso para la tabla general, en este caso: G = 76.42, en 2 df, que es altamente significativo (p <0.0001). Es decir que la tasa de retorno depende del grupo (A, B o C).

Luego, debido a que tiene 2 df, puede realizar dos pruebas G más pequeñas de 1 df (2x2). Sin embargo, después de realizar el primero, debe contraer las filas de los dos niveles utilizados en la primera prueba y luego usar esos valores para probarlos en el tercer nivel. Aquí, digamos que primero pruebas B contra C.

Obs   Rec    Ret    Total
B   17530    717    18247
C   42408   1618    44026

Exp     Rec    Ret  Total
B   17562.8  684.2  18247
C   42375.2 1650.8  44026

Esto produce una estadística G de 2.29 en 1 df, que no es significativa (p = 0.1300). Luego haga una nueva tabla, combinando las filas B y C. Ahora pruebe A contra B + C.

Obs   Rec    Ret    Total
A   16895    934    17829
B+C 59938   2335    62273

Exp     Rec    Ret  Total
A   17101.4  727.6  17829
B+C 59731.6 2541.4  62273

Esto produce un G-stat de 74.13, en 1 df, que también es altamente significativo (p <0.0001).

Puede verificar su trabajo agregando las dos estadísticas de prueba más pequeñas, que deberían ser iguales a la estadística de prueba más grande. Lo hace: 2.29 + 74.13 = 76.42

La historia aquí es que sus grupos B y C no son significativamente diferentes, pero ese grupo A tiene una tasa de retorno más alta que B y C combinados.

¡Espero que ayude!

También podría haber dividido la estadística G de manera diferente al comparar A con B primero, luego con C con A + B, o con A con C, luego con B con A + C. Además, puede expandir esto a 4 o más grupos, pero después de cada prueba debe contraer las dos filas que acaba de probar, con un número máximo de pruebas igual al df en su tabla original. Hay otras formas de particionar con tablas más complicadas. El libro de Agresti, "Análisis de datos categóricos", debe tener los detalles. Específicamente, su capítulo sobre inferencia para tablas de contingencia bidireccionales.

jww
fuente
1

Simplemente calcularía las razones de probabilidades (o riesgo) entre el grupo A y B, entre B y C, y entre A y C y vería si son estadísticamente diferentes. No veo una razón para hacer una prueba de proporciones "omnibus" en este caso, ya que solo tiene tres grupos. Tres pruebas de chi-cuadrado también podrían hacer el truco.

Como algunos de los individuos han señalado en los comentarios a continuación, la regresión logística con contrastes planificados también funcionaría bien.

Behacad
fuente
3
Hay un problema potencial de comparaciones múltiples aquí. ¿Por qué no simplemente hacer una regresión logística con 2 códigos ficticios para B & C?
gung - Restablece a Monica
1
Sí, claro, pero el problema de las comparaciones múltiples es bastante mínimo cuando tienes tres comparaciones.
Behacad
@gung hace algunos buenos puntos. La regresión logística sería el enfoque más simple, y si uno estuviera haciendo un enfoque de prueba de ji cuadrado, entonces casi definitivamente comenzaría con una prueba ómnibus (de la tabla de contingencia de la tabla 3x2) antes de hacer comparaciones de dos grupos (aunque esto correspondería a la importancia "general" del ajuste del modelo de regresión logística en este caso.)
James Stanley
1
Usando esta sugerencia (y Wikipedia), descubrí que el IC del 95% para las probabilidades de registro de A / B y A / C no se superpuso con 0, y que la razón de probabilidades de registro para B / C se superpuso con 0. ¿Eso significa que A es significativamente diferente de B y C?
thecity2
@Behacad, tienes razón en que con solo 3 comparaciones, los problemas de comparaciones múltiples serían menos intensos, pero todavía comenzaría con un modelo LR. Idealmente, eso sería seguido con comparaciones planificadas.
gung - Restablece a Monica