¿Por qué ejecutar pruebas divididas hasta que sea estadísticamente significativo una "cosa mala"? (¿O es eso?)

Leí este artículo sobre "cómo no ejecutar una prueba A / B".

Y todavía no entiendo cuál es exactamente el razonamiento del autor. ¿Alguien puede tontearlo por mí?

Creo que lo que podría estar diciendo es que leer los resultados de mis pruebas divididas con el tiempo me confunde. Sin embargo, quiero poder entender esto lo suficientemente bien como para poder explicárselo a otros.

¿Alguna ayuda?

statistical-significance experiment-design Justin Bozonier
fuente

Respuestas:

Es el fenómeno del "mejor dos de tres". Ya sabes el chiste:

"Volteemos por eso".

"¡OK ve!"

"Vaya, perdí. ¿Qué tal voltear dos veces más, siendo el ganador el mejor de los tres tiempos totales?"

La prueba de significación es exactamente como el lanzamiento de una moneda (pero con monedas sesgadas, por lo general). Si ejecuta una prueba corta y no es significativa, tal vez pueda lograr importancia (en parte por suerte) prolongando la prueba.

Lo contrario de esto (estoy tentado a decir el "lado negativo" de esto :-)) es que si planeas realizar un cierto número de pruebas y ver un resultado "significativo" temprano, eso tampoco es determinante. Es análogo al reverso de nuestro primer concurso:

"Vamos a buscarlo. ¿Los mejores dos de tres?"

"¡OK ve!"

"Ja, gané el primer lanzamiento, ¡así que gano!"

Dicho esto, tenga en cuenta que hay versiones de prueba que le permiten controlar la importancia (nominal) a medida que avanza. Estos funcionan como terminar un concurso temprano cuando se vuelve demasiado unilateral, las llamadas reglas de la misericordia . Si, al principio, se vuelve extremadamente obvio que la diferencia es real, puede ahorrar tiempo y esfuerzo al finalizar la prueba. Estos se llaman procedimientos de prueba de hipótesis secuenciales . Se podría argumentar que esta debería ser su forma estándar de realizar pruebas AB, porque a la larga pasará menos tiempo y esfuerzo en general.

whuber
fuente