Determinación segura del tamaño de la muestra para pruebas A / B

22

Soy un ingeniero de software que busca construir una herramienta de prueba A / B. No tengo antecedentes sólidos de estadísticas, pero he estado leyendo bastante en los últimos días.

Estoy siguiendo la metodología descrita aquí y resumiré los puntos relevantes a continuación.

La herramienta permitirá a los diseñadores y expertos en dominios configurar un sitio web para dividir el tráfico recibido en una URL específica entre dos o más URL. Por ejemplo, el tráfico que llega a http://example.com/hello1 podría dividirse entre http://example.com/hello1 y http://example.com/hello2 . El tráfico se dividiría en partes iguales entre las URL de destino y se comparará el rendimiento de los procesos de marketing en cada una de las URL de destino.

En este experimento, el tamaño de la muestra Ncorresponderá a los visitantes. La prueba medirá las "conversiones", un término que describe cuándo un visitante se compromete a una acción específica en un proceso de marketing. Las conversiones se expresan en porcentajes y es deseable una mayor tasa de conversión. Esto hace que la prueba sea una comparación de proporciones independientes. La herramienta debe poder emplearse fácilmente para producir pruebas con resultados seguros. Seleccionar un valor apropiado de Nes importante.

En el artículo vinculado, arriba, se emplea un análisis de potencia de dos proporciones independientes para encontrar N. Este método requiere que se conozca de antemano la tasa de conversión del control y que se especifique la mejora de conversión deseada. También especifica un nivel de significación del 95% y un poder estadístico del 80%.

Preguntas:

  1. ¿Es este método para determinar el Nsonido? Si es así, ¿cuál es la forma más segura de determinar la tasa de conversión del control antes de comenzar la prueba?
  2. ¿Existen formas sólidas de determinar Nque no requieren que se conozcan las tasas de conversión del control por adelantado?
  3. ¿Es sólida la metodología en el artículo vinculado ? Si no es así, ¿hay algún método accesible y fácilmente digerible que me pueda vincular?
jkndrkn
fuente

Respuestas:

12

El método más común para hacer este tipo de pruebas es con intervalos de confianza de proporción binomial (consulte http://bit.ly/fa2K7B )

Nunca podrá conocer la tasa de conversión "verdadera" de las dos rutas, pero esto le dará la capacidad de decir algo al respecto "Con un 99% de confianza, A es más efectivo en la conversión que B".

Por ejemplo: supongamos que ha ejecutado 1000 pruebas en la ruta A. De estas 1000 pruebas, 121 fueron conversiones exitosas (tasa de conversión de 0.121) y nos gustaría un intervalo de confianza del 99% en torno a este resultado de 0.121. La puntuación z para los intervalos de confianza del 99% es 2,576 (que acaba de ver esto en una tabla), lo que de acuerdo con la Así que con confianza del 99% podemos decir que0,094 p0,148, donde p es la tasa de conversión "verdadero" del proceso A.

p^±2.576(0.121(10.121)1000)p^±0.027
0.094p^0.148p^

Si construimos un intervalo similar para el proceso B, podemos comparar los intervalos. Si los intervalos no se superponen, entonces podemos decir con un 98% de confianza que uno es mejor que el otro. (Recuerde, solo tenemos un 99% de confianza en cada intervalo, por lo que nuestra confianza general sobre la comparación es 0.99 * 0.99)

NN

La mejor de las suertes para ti. (Estoy alentando el proceso B, por cierto).

ronny
fuente
2
Bienvenido al sitio, @ronny. Como eres nuevo aquí, puedes leer nuestras preguntas frecuentes . Entre otras cosas, este sitio admite través de mathjax. Me tomé la libertad de agregar mj para que tu publicación sea más fácil de leer; asegúrese de que todavía diga lo que quiere. Por ejemplo, tomé "p ^" para significar "p-hat" ( ), pero noto que dice que es la tasa "verdadera", mientras que p-hat se usa a menudo para indicar la p estimada a partir de sus datos , así que solo queremos asegurarnos de que su respuesta diga lo que quiere que diga. pLATEXp^
gung - Restablece a Monica
Ronny, tiene razón en general (no solo para este procedimiento): los intervalos de confianza y, en consecuencia, el requisito de tamaño de muestra son extremadamente sensibles a las verdaderas proporciones para A y B. Como un seguimiento quizás más preciso del comentario de @ gung: observo que usted (y por lo tanto entusiasta en su edición) use para la proporción verdadera (en ) y para la estimación puntual de la observación. Hubiera escrito los dos superiores (calculados a partir de la observación), pero los dos inferiores sin hat (para la proporción real). 0,094 p0,148sucessesp^0.094p^0.148p psucessestrialsp^p
cbeleites apoya a Monica el
Esta respuesta es incorrecta. Específicamente: "Si los intervalos no se superponen, entonces podemos decir con un 98% de confianza que uno es mejor que el otro" está mal. Dados dos intervalos de confianza del 99% no superpuestos, la confianza de que la diferencia excluye 0 como mínimo 99%. Si los intervalos son del mismo tamaño, la diferencia es significativa alrededor del nivel de 99.97%. stats.stackexchange.com/questions/18215 cscu.cornell.edu/news/statnews/Stnews73insert.pdf
Bscan
@Bscan ¿Su comentario es válido para otros valores? Por ejemplo, ¿es correcto decir (según su recomendación) que la diferencia de las medias es al menos del 30% si tenemos dos intervalos de confianza del 30% no superpuestos del mismo tamaño?
Felipe Almeida
1
@Felipe, sí, el comentario se cumple para todos los valores y los intervalos de confianza del 30% no superpuestos implican que la confianza de que la diferencia excluye 0 es al menos del 30%. Sin embargo, esto no significa que haya una diferencia del 30% en las medias. Los medios verdaderos pueden ser muy similares; simplemente estamos tratando de demostrar que no son exactamente lo mismo.
Bscan
8

En mi humilde opinión, hasta donde llega, el mensaje va en la dirección correcta. Sin embargo:

  • El método propuesto implícitamente hace dos supuestos: la tasa de conversión de referencia y la cantidad de cambio esperada. El tamaño de la muestra depende mucho de cuán bueno cumpla con estos supuestos. Le recomiendo que calcule los tamaños de muestra requeridos para varias combinaciones de p1 y p2 que considere realistas. Eso le dará una idea de cuán confiable es realmente el cálculo del tamaño de la muestra.

    > power.prop.test (p1=0.1, p2 = 0.1*1.1, sig.level=0.05, power=0.8)
    
         Two-sample comparison of proportions power calculation 
    
                  n = 14750.79
                 p1 = 0.1
                 p2 = 0.11
          sig.level = 0.05
              power = 0.8
        alternative = two.sided
    
     NOTE: n is number in *each* group 
    
    > power.prop.test (p1=0.09, p2 = 0.09*1.1, sig.level=0.05, power=0.8)
    
         Two-sample comparison of proportions power calculation 
    
                  n = 16582.2
                 p1 = 0.09
                 p2 = 0.099
          sig.level = 0.05
              power = 0.8
        alternative = two.sided
    
     NOTE: n is number in *each* group 
    

    Entonces, si la tasa de conversión real es del 9% en lugar del 10%, necesita otros 2000 casos para cada escenario para detectar la tasa de conversión del 10% más que la línea base del nuevo formulario.

Una vez realizada la prueba, puede calcular los intervalos de confianza para las proporciones en función de sus observaciones reales.

  • la última conclusión en 3. (sobre la prueba de múltiples escenarios) no es del todo correcta. Para ajustar para pruebas múltiples (en el ejemplo multiple = 2), no es suficiente agregar solo otras pruebas para cada nuevo escenario: si ni B ni C son mejores que la versión original A, y las dos pruebas A ./. B y B ./. C se realizan como se propone allí con casos para cada uno de los escenarios, luego la probabilidad de alejarse falsamente de A es (1 - α) ² ≈ 10% (α: probabilidad aceptada de error tipo I ; arriba). En otras palabras, es casi el doble de lo especificado inicialmente. El segundo problema con ese enfoque es: ¿puede realmente hacerlo sin comparar B ./. ¿DO? ¿Qué vas a hacer si encuentras que B y C son mejores que A?nn
    nsig.level
cbeleites apoya a Monica
fuente
Hola, muchas gracias por tomarse el tiempo para criticar estos métodos. En el cálculo (1 - α) ² ≈ 10%, ¿a qué se refiere "α"? Dado que la captura de datos de prueba lleva mucho tiempo, ¿cómo propone uno que construya este experimento si quiere probar tres proporciones? ¿Hay alguna forma segura de hacerlo que no implique ejecutar múltiples pruebas? Con tres alternativas, tres pruebas no son terriblemente gravosas, pero con cuatro alternativas, el número de combinaciones dispara hasta seis.
jkndrkn
1
@jkndrkn: α es la probabilidad falsa de cambiar de la forma original, también conocido como error α o error tipo I. Ver respuesta actualizada.
cbeleites apoya a Monica el
1
@jkndrkn: Pruebas múltiples: echaría un vistazo a Fleiss et.al .: Métodos estadísticos para tasas y proporciones sobre los procedimientos para tales pruebas. Sin embargo, el punto clave para tales pruebas múltiples es siempre usar el conocimiento experto para reducir la cantidad de alternativas tanto como sea posible antes de definir la prueba porque los tamaños de muestra requeridos explotan con la cantidad de alternativas (como ya se dio cuenta).
cbeleites apoya a Monica el