Antecedentes:
Mi software solicita a los usuarios donaciones opcionales de cualquier cantidad. Dividí las solicitudes de donación de prueba entre los usuarios para encontrar la mejor manera de preguntar: 50% obtiene la versión 1 de la solicitud, 50% obtiene la versión 2 de la solicitud, y vemos cuál funciona mejor.
Casi todos los usuarios dan $ 0, pero algunos donan. Los resultados podrían verse así:
Number of users Number of donations Dollar amounts donated
GROUP A 10,000 10 40,20,20,20,15,10,10,5,5,5
GROUP B 10,000 15 50,20,10,10,10,10,10,10,5,5,5,5,5,5,5
Quiero saber si un grupo es un ganador, o si es un empate, o si necesitamos una muestra más grande para estar seguros. (Este ejemplo, simple para la discusión, casi seguramente necesita una muestra más grande para obtener resultados significativos).
Lo que ya mido:
- Tenía un grupo tienen una significativamente mayor número de donaciones? ¿Cuánto más grande? Mido este valor p y el intervalo de confianza usando la herramienta ABBA Thumbtack , usando solo la cantidad de donaciones y la cantidad de usuarios, ignorando las cantidades en dólares. Su metodología se describe en "¿Cuáles son las estadísticas subyacentes?" sección de ese enlace. (Está sobre mi cabeza, pero creo que calcula el intervalo de confianza al tomar la diferencia entre las tasas de donación como variables aleatorias normales en el intervalo Agresti-Couli).
- ¿Un grupo donó una cantidad significativamente diferente de dinero total ? Mido este valor p realizando una prueba de permutación: volviendo a mezclar repetidamente todos los sujetos 2N en 2 grupos de sujetos N, midiendo la diferencia en el dinero total entre los grupos cada vez, y encontrando la proporción de barajaduras con una diferencia> = la observada diferencia. (Creo que esto es válido en base a este video de Khan Academy que hace lo mismo para las galletas en lugar de dólares).
Prueba de wilcox de R.
Algunas preguntas sobre wilcox.test()
R:
- Si alimentara
wilcox.test(paired=FALSE)
la tabla de datos anterior, ¿respondería cualquier pregunta nueva que mis herramientas anteriores no hayan respondido anteriormente, dándome más información para decidir si seguir ejecutando mi prueba / declarar un ganador / declarar un empate? - Si es así, ¿qué pregunta exacta respondería?
r
p-value
wilcoxon-mann-whitney
permutation-test
ab-test
Michael Gundlach
fuente
fuente
Respuestas:
Si usaU . Esta es una prueba de dominio estocástico . Si las distribuciones fueran iguales, y seleccionó una observación de cada versión al azar, la observación de la versión 2 tendría una probabilidad del 50% -50% de ser más alta que la observación de la versión 1. Por otro lado, el valor extraído de la versión 2 podría tener una probabilidad mayor del 50% de ser mayor que (menor que) el valor de la versión 1. Este es el dominio estocástico. No se dice nada sobre cuánto mayor o menor, solo que es mayor o menor.
wilcox.test()
el argumentopaired
(tenga en cuenta que esto es minúscula y que distingue entreR
mayúsculas y minúsculas) establecido enFALSE
, está ejecutando una prueba Mann-WhitneyEso no me parece adecuado para tus objetivos. Desea la mayor cantidad de dinero total, que puede entenderse como la mayor donación media multiplicada por el número de usuarios. Es posible, debido al sesgo, que una versión pueda tener la media / total más grande, pero que la otra versión sea estocásticamente mayor. (Si ese fuera el caso, desearía la versión anterior). Debido a que esto es lo que finalmente desea, una prueba que sea específica para ese aspecto de las distribuciones es la más adecuada para usted.
Reconozco que sus datos no son remotamente normales y, por lo tanto, la prueba (que podría ser lo que la mayoría de la gente pensaría primero para comparar dos grupos) sería inapropiada. Dados dos grupos continuos, pero no normales, la mayoría de las personas también podrían ir automáticamente con Mann-Whitney. En su caso, iría con una prueba de permutación, por la razón anterior. (Entiendo que esto es lo que hiciste, si entendí correctamente.) Una prueba de permutación es válida aquí, porque asignaste aleatoriamente a los usuarios a los dos grupos; por lo tanto, son intercambiables.t
Para realizar una prueba de permutación, simplemente baraje el indicador de agrupación y calcule las medias y la diferencia entre las medias. Hacer esto muchas veces le permitirá crear una distribución de muestreo de la diferencia entre las medias. Puede comparar su diferencia observada con la distribución de muestreo. Para una prueba de dos colas, tome la proporción más pequeña más allá de su diferencia y multiplíquela por dos. El producto es directamente interpretable como un valor . Aquí hay un ejemplo trabajado con sus datos:pags
Con respecto a la primera pregunta de estudio, es decir, "qué versión produjo un mayor número de donaciones", aunque reconozco que todo el mundo ama a ABBA , también puede hacerloz
R
. Usaría una prueba de la diferencia de dos proporciones. En eso es . Aquí hay un ejemplo usando sus datos:R
prop.test()
fuente
b <- function(n) dbinom(0:n, n, 1/2); p <- apply(expand.grid(b(1), b(1), b(4), b(6), b(10)), 1, prod); n <- as.matrix(expand.grid(0:1, 0:1, 0:4, 0:6, 0:10)) %*% c(50,40,20,10,5); plot(dist <- aggregate(p, list(n), sum))
.La respuesta de @ gung es correcta. Pero agregaría que dado que sus datos pueden estar sesgados, con una cola derecha enorme, la media puede no ser robusta y, como tal, puede no ser el índice "correcto" para representar la centralidad de su distribución. Por lo tanto, trataría también con soluciones más robustas, como medianas o medios truncados.
fuente