El otro día, un seminario web realizado por una compañía de pruebas a / b hizo que su "Científico de datos" residente explicara que debe validar sus resultados volviendo a ejecutar el experimento. La premisa era que, si selecciona un 95% de confianza, hay un 5% (1/20) de probabilidad de un falso positivo. Si vuelve a ejecutar su experimento con las mismas restricciones, ahora hay un 1/400 (supongo que lo determinaron como 0.05 ^ 2 = 1/400)
¿Es esta una declaración válida? (es decir, "correr dos veces, dos victorias de significancia estadística = 1/400 de probabilidad de falso positivo")? ¿Habría sido un mejor enfoque para aumentar su nivel de importancia?
Desde el punto de vista comercial, la preocupación que tengo es volver a ejecutar el experimento, exponer a más usuarios a una página inferior (tratamiento) y, por lo tanto, perder las ventas potenciales.
Respuestas:
Ignorando las probabilidades de un falso positivo por el momento, lo vería así:
En cualquier caso, debe ejecutar un tercer experimento, solo para estar seguro. Esto puede estar bien para experimentos que son relativamente baratos, pero donde el costo es potencialmente alto (como perder clientes) realmente necesita considerar el beneficio.
Al observar las probabilidades, la primera vez que ejecuta el experimento, hay una probabilidad de 1/20 de un falso positivo. La segunda vez que ejecutas el experimento todavía hay una probabilidad de 1/20 de un falso positivo (piensa en tirar un dado donde cada tirada tiene una probabilidad de 1/6 de obtener un cierto número). Solo hay una probabilidad de 1/400 de tener dos falsos positivos seguidos.
El verdadero problema es tener una hipótesis bien definida con procedimientos estrictos y tener un tamaño de muestra, nivel de error e intervalo de confianza con el que pueda vivir o pagar. La repetición del experimento debe dejarse para explorar
en lugar de segundos resultados de adivinanzas. Aunque explicar esto a los gerentes es más fácil decirlo que hacerlo.
fuente
Sí, esa afirmación es correcta, suponiendo que tu experimento sea ideal. Pero obtener un experimento ideal es mucho más difícil de lo que este sentimiento da crédito. Los datos del "mundo real" son desordenados, complicados y difíciles de interpretar en primer lugar. Hay un enorme espacio para el análisis defectuoso, las variables ocultas (rara vez hay "las mismas restricciones") o la falta de comunicación entre un científico de datos que hace su trabajo y un ejecutivo de marcado que hace el suyo.
Desde el punto de vista comercial, garantizar una buena metodología y no tener demasiada confianza en los resultados; un desafío más complicado de lo que piensas. Una vez que los bajes, trabaja en ese 5%.
fuente