Es el fenómeno del "mejor dos de tres". Ya sabes el chiste:
"Volteemos por eso".
"¡OK ve!"
"Vaya, perdí. ¿Qué tal voltear dos veces más, siendo el ganador el mejor de los tres tiempos totales?"
La prueba de significación es exactamente como el lanzamiento de una moneda (pero con monedas sesgadas, por lo general). Si ejecuta una prueba corta y no es significativa, tal vez pueda lograr importancia (en parte por suerte) prolongando la prueba.
Lo contrario de esto (estoy tentado a decir el "lado negativo" de esto :-)) es que si planeas realizar un cierto número de pruebas y ver un resultado "significativo" temprano, eso tampoco es determinante. Es análogo al reverso de nuestro primer concurso:
"Vamos a buscarlo. ¿Los mejores dos de tres?"
"¡OK ve!"
"Ja, gané el primer lanzamiento, ¡así que gano!"
Dicho esto, tenga en cuenta que hay versiones de prueba que le permiten controlar la importancia (nominal) a medida que avanza. Estos funcionan como terminar un concurso temprano cuando se vuelve demasiado unilateral, las llamadas reglas de la misericordia . Si, al principio, se vuelve extremadamente obvio que la diferencia es real, puede ahorrar tiempo y esfuerzo al finalizar la prueba. Estos se llaman procedimientos de prueba de hipótesis secuenciales . Se podría argumentar que esta debería ser su forma estándar de realizar pruebas AB, porque a la larga pasará menos tiempo y esfuerzo en general.