El G-Test es una forma de obtener estimaciones rápidas de una distribución chi cuadrado, y es recomendado por el autor de este conocido tutorial prueba A / B .
Esta herramienta asume una distribución normal y utiliza la diferencia de medios para calcular la confianza.
¿Cuál es la diferencia entre una prueba G y una prueba T? ¿Cuáles son los beneficios o las desventajas de usar cada método para medir la efectividad de nuestras pruebas A / B?
Estoy tratando de averiguar cuál debo usar para medir los resultados de mi marco de prueba A / B. Nuestro marco tiene dos casos de uso general: dividir el grupo de visitantes de manera uniforme, mostrar a cada uno una función diferente y medir su conversión en otra página (por ejemplo, la página de registro); y dividir el grupo de visitantes en el grupo de control (90%) y un grupo experimental (10%) para una prueba, y medir las conversiones en alguna otra página.
Nuestro sitio web recibe entre 1000 y 200,000 visitas por día (estoy siendo vago a propósito para ocultar el número verdadero, lo que no cambia mucho). Estas visitas se dividen con una distribución exponencial en aproximadamente 300 páginas.
Gracias Kevin
fuente
Respuestas:
En general, la prueba que es menos aproximada para calcular las estadísticas de la prueba es mejor, aunque todas convergerán con los mismos resultados al aumentar el tamaño de la muestra.
Entonces, dado que las pruebas A / B generalmente se enfocan en resultados binarios, ...
Respuesta corta:
Use la prueba G, porque es menos aproximada.
Respuesta larga:
La prueba t, en las pruebas A / B, el caso de tamaños de muestra desiguales y varianza desigual , aproxima la diferencia de dos distribuciones con una distribución t, que es cuestionable en sí misma . Las dos distribuciones pueden ser desconocidas, pero se considera que su media y varianza son suficientes para describirlo (de lo contrario, cualquier conclusión no ayudará mucho), lo que por supuesto es cierto para la distribución normal.
En el caso especial del resultado binario, la distribución binomial se puede aproximar con una distribución normal con , que es válida para (regla general, = ensayos, = tasa de éxito).μ = n p ,σ2= n p ( 1 - p ) n ∗ p ∗ ( 1 - p ) ≥ 9 norte pags
Entonces, en resumen, aunque está bien aplicar la prueba t, se realizan dos aproximaciones para transformar el caso binomial en un caso más genérico, lo cual no es necesario aquí, ya que las pruebas menos aproximadas como la prueba G o (aún mejor ) La prueba exacta de Fisher está disponible para este caso especial. La prueba exacta de Fisher se debe aplicar especialmente si el tamaño de la muestra es menos igual a 20 (otra regla general), pero supongo que esto no importa en una prueba A / B sólida.
fuente
La página de Ben Tilly a la que hizo referencia es un excelente resumen de las pruebas A / B para principiantes. Sin embargo, a medida que entra en preguntas más detalladas / problemas de diseño del estudio, vale la pena buscar fuentes primarias más detalladas. Kohavi et al publicaron un documento seminal sobre pruebas de AB que es una buena combinación de exhaustividad y legibilidad. Lo recomiendo ampliamente: http://exp-platform.com/Documents/GuideControlledExperiments.pdf .
Volviendo a sus preguntas, las preguntas reales que debería hacerse son:
A medida que trabaje en estas preguntas, eventualmente terminará con una mejor comprensión de los parámetros de la prueba. Combinado con su conocimiento de dominio (por ejemplo, si su sitio experimenta un patrón cíclico fuerte que le gustaría controlar), el apetito por exponer a los usuarios a experimentos (¿está realmente dispuesto a mostrar la experiencia del tratamiento a muchos usuarios, o prefiere contener el daño potencial) y la velocidad deseada para obtener resultados, esta comprensión lo guiará a determinar en última instancia cómo dividir el tráfico general entre controles y tratamientos.
Odio responder preguntas específicas con "depende", pero en este caso realmente depende de lo que esté sucediendo con su sitio y experimento. Bajo ciertas condiciones, no hará una diferencia significativa si dividir el tráfico 50/50 o 90/10, mientras que en diferentes circunstancias esto puede ser muy importante. YMMV, pero una buena referencia como el artículo citado anteriormente definitivamente lo moverá en la dirección correcta.
fuente
No puedo comentar sobre la publicación original ya que me faltan puntos StackExchange o lo que sea, pero solo quería señalar que para el valor p, ABBA no utiliza una prueba Z simple basada en aproximación normal, aunque puedo vea cómo podría pensar eso en una breve lectura de la página. ABBA utiliza estadísticas binomiales exactas hasta el tamaño de muestra 100, más allá de eso se basa en la aproximación normal con una corrección de continuidad. No he visto casos en los que difiera mucho de las pruebas "menos aproximadas", pero me interesaría mucho ver esos casos si te los encuentras.
No hay distribuciones t ni pruebas t presentes en ningún caso.
Para intervalos de confianza, siempre se basa en una aproximación normal, aunque utiliza el método Agresti-Coull que funciona bastante bien.
fuente