Prueba AB vs prueba de la hipótesis nula

8

Estoy tratando de entender la diferencia entre

  1. prueba de la hipótesis nula (es decir, prueba de que la probabilidad de un "objetivo" es la misma en 2 poblaciones diferentes, similar a la prueba de prop. en R)

  2. Una prueba A / B utilizando una fórmula bayesiana como la que se describe aquí: http://www.evanmiller.org/bayesian-ab-testing.html

¿Hay una diferencia? ¿Es preferible uno?

El problema al que me enfrento se parece a esto:

el grupo de control tiene 100,000 impresiones y 100 reacciones, el grupo de prueba tiene 50,000 impresiones y 55 reacciones

usuario35581
fuente

Respuestas:

10

¿Hay una diferencia?

Si. Una prueba de hipótesis nula produce una estadística de prueba y un valor p, la probabilidad de una estadística de prueba tan extrema como la de los datos, bajo el supuesto de que la hipótesis nula es verdadera. En su ejemplo, prop.testprueba la suposición de que elpagsUNA y pagssison iguales. Esto es distinto de la probabilidad descrita en su enlace,PAGSr(pagssi>pagsUNA):

En sus datos, prop.testproduce un valor p de 0.6291; interpretamos que esto significa que sipagsUNA=pagssi, esperaríamos ver datos tan extremos en aproximadamente el 63% de los experimentos. Pero esto no es directamente interpretable como la probabilidad de que la alternativa supere al control. Usando la fórmula de la publicación vinculada, uno llega aPAGSr(pagssi>pagsUNA)0,726, que es directamente interpretable como tal. (Código de Python después del descanso).

Para tener un poco de intuición sobre esto, observe las dos densidades posteriores para pagsUNA,pagssi.

Beta (56, 49946), Beta (101, 99901)

  1. El modo de pagssi está claramente a la derecha del modo de pagsUNA. En otras palabras, nuestra estimación puntual parapagssies más alto. Esperado, ya que5550000>100100000.
  2. El posterior para pagssiEstá más disperso. Intuitivamente satisfactorio: dado que hemos observado A el doble de veces, tenemos más confianza en un posterior más estrecho.
  3. Todavía hay mucha superposición, es concebible que los dos tratamientos simplemente no difieran significativamente.

Para una última ayuda intuitiva, podemos trazar la distribución de la diferencia de los posteriores, y observar que aproximadamente tres cuartos de su área se encuentra a la derecha de 0 0: Diferencia de distribuciones beta

Para reiterar, el valor p solo nos dice que los datos no llegan al extremo en el que estaríamos convencidos de que existe una diferencia.

¿Es preferible uno?

Esa pregunta es una instancia de la opción más amplia Bayesiana v. Frecuentista, y a menudo se desvía hacia cuestiones de opinión. En general, creo que la respuesta depende de muchos factores, incluidas las preferencias de aplicación, audiencia y analista. Aquí hay algunas maneras de ver la diferencia entre los dos, lo que con suerte ayudará a mostrar cuándo sería preferible.

Una buena introducción a las pruebas Bayesianas A / B lo pone así:

¿Cuál de estas dos afirmaciones es más atractiva?

(1) "Rechazamos la hipótesis nula de que A = B con un valor p de 0.043".

(2) "Hay un 85% de posibilidades de que A tenga un aumento del 5% sobre B".

El modelado bayesiano puede responder preguntas como (2) directamente.

Para otra toma, el estadístico teórico Larry Wasserman describe muy bien las dos escuelas de pensamiento:

Pero primero, debo decir que la inferencia bayesiana y frecuente se define por sus objetivos, no por sus métodos.

El objetivo de la inferencia frecuenta: procedimiento de construcción con garantías de frecuencia. (Por ejemplo, intervalos de confianza).

El objetivo de la inferencia bayesiana: cuantifique y manipule sus grados de creencias. En otras palabras, la inferencia bayesiana es el análisis de creencias.


>>> from scipy.special import betaln as lbeta
def probability_B_beats_A(a_A, b_A, a_B, b_B):
...     total = 0.0
...     for i in range(a_B):
...         total += exp(lbeta(a_A+i, b_B+b_A) - log(b_B+i) - lbeta(1+i, b_B) - lbeta(a_A, b_A))
...     return total
>>> probability_B_beats_A(101, 100001 - 100, 56, 50001 - 55)
0.72594700264280843
Sean Easter
fuente