¿Determinar el tamaño de la muestra antes de comenzar un experimento o ejecutar el experimento indefinidamente?

12

Estudié estadística hace años y lo olvidé todo, por lo que pueden parecer preguntas conceptuales generales que específicas, pero aquí está mi problema.

Trabajo para un sitio web de comercio electrónico como diseñador de experiencia de usuario. Tenemos un marco de prueba A / B que fue construido hace años y que estoy empezando a dudarlo.

La métrica sobre la que tomamos todas nuestras decisiones se conoce como conversión, y se basa en el porcentaje de usuarios que visitan el sitio y terminan comprando algo.

Por lo tanto, queremos probar cambiar el color del botón Comprar de Verde a Azul.

El control es lo que ya tenemos, el botón verde donde sabemos cuál es nuestra tasa de conversión promedio. El experimento está reemplazando el botón verde con el botón azul.

Estamos de acuerdo en que el 95% de importancia es el nivel de confianza con el que estamos contentos y activamos el experimento, lo dejamos en funcionamiento.

Cuando los usuarios visitan el sitio, detrás de escena hay una probabilidad de 50/50 de que se envíen a la versión de control (botón verde) Vs la versión experimental (botón azul).

Después de mirar el experimento después de 7 días, veo un aumento del 10,2% en la conversión a favor del experimento con un tamaño de muestra de 3000 (1500 para el control, 1500 para el experimento) y una significación estadística del 99,2%. Excelente, creo.

El experimento continúa, el tamaño de la muestra crece y luego veo un aumento de + 9% en la conversión con una importancia del 98.1%. Ok, mantenga el experimento funcionando por más tiempo y ahora el experimento muestra solo un aumento del 5% en la conversión con una significancia estadística de solo 92%, y el marco me dice que necesito 4600 muestras más antes de alcanzar el 95% de significación.

¿En qué punto es el experimento concluyente entonces?

Si pienso en un proceso de ensayo clínico en el que está de acuerdo con el tamaño de la muestra por adelantado y al completar el experimento, ve una mejora del 10% de cualquier métrica al 99% de importancia, entonces se toma la decisión de que ese medicamento luego salga al mercado. Pero luego, si hubieran hecho el experimento con 4000 personas y vean una mejora del 5% de cualquier métrica a solo un 92% significativo, entonces no se permitiría que el medicamento salga al mercado.

¿Deberíamos acordar un tamaño de muestra por adelantado y detenernos una vez que se alcanza ese tamaño de muestra y estar contentos con los resultados si la significación fue del 99% al momento de apagar el experimento?

Tech 75
fuente
1
Puede considerar usar un enfoque diferente basado en la clasificación y selección .
pjs
Encontré esta película ( youtube.com/watch?v=fl9V0U2SGeI ). Me parece que responde a su pregunta exactamente.
Nathan
También vale la pena señalar que lo subyacente del estudio es altamente reflexivo, de rápido movimiento y requiere repetidas pruebas constantes. Los diseños, colores, botones, etc. se mueven rápidamente a medida que aparecen nuevos sitios, estándares y estilos. También un alto nivel de problemas combinatorios (ese botón puede devolver resultados diferentes con un ligero ajuste en el color de fondo, etc.). Como resultado, independientemente de los niveles de significancia, no puede tener un nivel de confianza 'verdadero' muy alto (y ciertamente no por largos períodos) en los resultados, incluso si se ven muy fuertes.
Philip

Respuestas:

11

Creo que el concepto que está buscando es el análisis secuencial. Hay una serie de preguntas en este sitio etiquetadas con el término que puede resultarle útil, ¿tal vez ajustando el valor p para el análisis secuencial adaptativo (para la prueba de chi cuadrado)? Sería un lugar para comenzar. También puede consultar el artículo de Wikipedia aquí . Otro término de búsqueda útil es gasto alfa, que proviene del hecho de que a medida que miras cada aspecto repetido, debes considerar que usa algo de tu alfa (nivel de significancia). Si sigue mirando sus datos sin tener en cuenta las comparaciones múltiples, se encuentra con el tipo de problema que describe en su pregunta.

mdewey
fuente
Gracias, esas son algunas buenas recomendaciones de lectura. Ni siquiera sabría qué haber buscado de otra manera. Consumirá esto.
Tech 75
5

¿En qué punto es el experimento concluyente entonces?

Creo que aquí es donde está el error de pensar. No hay ningún punto en el que el experimento pueda ser "concluyente" si se toma como "prueba deductiva de causalidad". Cuando realiza un experimento que implica una prueba estadística, debe comprometerse con respecto a qué evidencia considera suficientemente buena.

Los procedimientos experimentales estadísticamente sólidos le dan resultados con tasas conocidas de falsos positivos y falsos negativos. Si ha elegido un procedimiento que usa 0.05 como umbral de significancia, está diciendo que está dispuesto a aceptar que en el 5% de los casos en los que realmente no hay diferencia, su prueba le dirá que hay una diferencia.

Si se desvía del procedimiento en las formas que describe (sin elegir un punto de detención antes de tiempo, simplemente ejecute la prueba hasta que su valor p calculado caiga por debajo de 0.05, o ejecute todo el experimento varias veces hasta obtener un resultado positivo , etc.), está haciendo más probable que su prueba le diga que existe una diferencia cuando de hecho no hay diferencia. Está haciendo más probable que se deje engañar pensando que su cambio ha sido efectivo. No te dejes engañar.

Lea este documento: La psicología falsa positiva La flexibilidad no revelada en la recopilación y análisis de datos permite presentar cualquier cosa como significativa

Destaca varias formas en que puede interferir de manera incorrecta con un procedimiento de prueba que hace que sea más probable que se deje engañar, incluido el escenario exacto que describe (sin saber cuándo detener un experimento).

Otras respuestas le brindan algunas soluciones para mitigar estos problemas (análisis secuencial, corrección de Bonferroni para comparaciones múltiples). Pero esas soluciones, mientras que es capaz de controlar la tasa de falsos positivos, por lo general reducir la potencia del experimento, por lo que es menos probable que detectar diferencias cuando se hacen existir.


Hay otro error que estás cometiendo. Usted habla de una "mejora del 10% de cualquier métrica al 99% de importancia". Las pruebas de significación solo pueden decirle si la diferencia observada en su muestra probablemente se deba a una diferencia subyacente real o simplemente a un ruido aleatorio; no le dan intervalos de confianza sobre cuál es la verdadera magnitud de la diferencia.

Ciencias
fuente
3

Creo que estás haciendo la pregunta equivocada aquí. La pregunta que hace es sobre pruebas estadísticas; Creo que la pregunta correcta es "¿por qué el efecto cambia con el tiempo?"

Si está midiendo una variable 0/1 para la conversión (¿compraron en absoluto?), Entonces las personas que no compraron en una sesión inicial pueden volver y comprar más tarde. Esto significa que la tasa de conversión aumentará con el tiempo y se perderá cualquier efecto de que un cliente compre en su primera visita en lugar de visitas posteriores.

En otras palabras, primero calcule lo que está midiendo, luego preocúpese por cómo está midiendo.

efreeman
fuente
3

Esto es exactamente por qué es necesario definir un criterio claro antes de los ensayos. Como @mdewey indica que existen métodos establecidos para evaluar periódicamente un ensayo, pero todos estos requieren un criterio claro de detención para evitar cualquier error sobre la decisión. Dos cuestiones críticas son que debe corregir las comparaciones múltiples y que cada análisis no es independiente, pero su resultado está muy influenciado por los resultados de sus análisis anteriores.

Como alternativa, puede ser una mejor práctica definir un tamaño de muestra establecido basado en argumentos comercialmente relevantes.

Primero, la empresa debe acordar qué cambio comercial es relevante en la tasa de conversión (es decir, qué tamaño de diferencia se necesita para garantizar un argumento comercial para que el cambio se implemente de forma permanente). Sin aceptar esto, no hay un punto de referencia razonable.

Una vez que se determina el tamaño mínimo de efecto comercialmente relevante (tenga en cuenta que esto puede cambiar caso por caso dependiendo de cuán crítico sea el paso que se está probando), entonces usted acepta el nivel de riesgo que la compañía está dispuesta a aceptar por perderse un efecto verdadero ( beta) y por aceptar un efecto falso (alfa).

Una vez que tenga estos números, conéctelos a la calculadora de tamaño de muestra y listo, tendrá su tamaño de muestra establecido para tomar una decisión.


EDITAR

Usar tamaños de muestra pequeños y esperar que muestren un efecto lo suficientemente grande es una economía falsa (ya que su objetivo es obtener resultados confiables accionables en lugar de generar hipótesis controvertidas para la publicación académica). Suponiendo un muestreo imparcial, a tamaños de muestra bajos, la probabilidad de seleccionar aleatoriamente muestras que están todas hacia extremos opuestos es mayor que en tamaños de muestra altos. Esto conduce a una mayor probabilidad de rechazar una hipótesis nula cuando, de hecho, no hay diferencia. Por lo tanto, esto significaría impulsar cambios que en realidad no están teniendo un impacto real o peor aún teniendo un impacto ligeramente negativo. Esta es una forma diferente de explicar de qué está hablando @Science cuando declaran

"Está haciendo más probable que su prueba le diga que existe una diferencia cuando de hecho no hay diferencia"

El punto de preespecificar su análisis estadístico (ya sea un tamaño de muestra fijo como lo describo o una estrategia de evaluación múltiple) es que equilibre adecuadamente las demandas de los errores de tipo I y II. Su estrategia actual parece centrarse en los errores de tipo I e ignorar completamente el tipo II.

Como muchos otros respondedores han declarado, los resultados nunca son concluyentes, pero si ha considerado los errores tipo I y II y su impacto en su negocio, tendrá la mayor confianza que puede esperar para implementar cambios basados ​​en los resultados. Al final, la toma de decisiones se trata de sentirse cómodo con su nivel de riesgo y nunca tratar sus "hechos" como inmutables.

Me intrigan otros aspectos del diseño de su estudio que pueden estar influyendo en los resultados que ve. Pueden estar revelando algunos factores sutiles que no son lo que quieres.

¿Las personas seleccionadas para la muestra son todos los nuevos visitantes, todos los visitantes que regresan o es indiferenciado? Los clientes establecidos pueden tener una mayor tendencia a optar por algo novedoso (tan sesgado hacia un cambio que no sea de un color específico), pero para los nuevos clientes todo es nuevo.

¿Las personas reales que hacen clic recurren dentro del plazo del estudio?

Si las personas visitan varias veces durante el período de tiempo del estudio, ¿se les presenta la misma versión o se asigna al azar sobre la marcha?

Si se incluyen visitantes recurrentes, existe el peligro de fatiga por exposición (ya no distrae porque ya no es nuevo)

ReneBt
fuente
Gracias por esto. Usted hace un gran punto sobre acordar un cambio comercial relevante en la conversión de antemano. Pero ya que con el comercio electrónico, pequeños cambios en la conversión pueden afectar las ventas, será un valor bastante bajo.
Tech 75
La diferencia mínima necesaria para ser pequeña no es un problema, se asegurará de que la energía sea adecuada.
ReneBt
0

La práctica común generalmente dicta que primero debe decidir el tamaño de la muestra (para controlar el poder estadístico de su prueba de hipótesis) y luego realizar el experimento.

En respuesta a su posición actual, parece que está buscando combinar una serie de pruebas de hipótesis. Te recomiendo que mires el método de Fisher. Además, es probable que desee ver los métodos de Brown o Kost para adaptar el método de Fisher a las estadísticas de pruebas dependientes. Como ha mencionado otro encuestado, la conversión (o no conversión) de un cliente tendrá un impacto en si realizará una compra (o no) en la próxima visita, independientemente del color del botón.

Posteos:

  1. Puede encontrar más información y fuentes sobre los métodos de Fisher y sus extensiones en el artículo de Wikipedia para el método de Fisher.
  2. Creo que es importante mencionar que un experimento nunca es realmente concluyente. Un valor p pequeño no indica que su resultado sea concluyente, solo que la hipótesis nula es poco probable según los datos que ha adquirido.
Octavio Urista
fuente