El problema del mundo real
Uno de mis clientes se está preparando para enviar un correo directo a su lista de usuarios suscritos, y surgió este desafío estadístico.
Su equipo de marketing tiene 3 folletos diferentes y quiere saber qué folleto obtiene la tasa de respuesta más alta. También les gustaría saber si enviar el correo con una dirección escrita a mano, en un sobre grueso, mejora los resultados en comparación con un sobre normal.
Asumamos lo siguiente:
- Para cada folleto (), una persona que recibe ese folleto que realmente lo abre y lo lee responderá con probabilidad, dónde es la verdadera tasa de respuesta para ese folleto
- Los sobres gruesos de alta calidad tienen una verdadera tasa de apertura de mientras que los sobres normales tienen una tasa de apertura
- De envíos anteriores, esperamos que las tasas de respuesta observadas reales estén entre aproximadamente 1% y 5%.
Nuestras metas
Queremos encontrar el mejor folleto mientras enviamos la menor cantidad de correos. También queremos estimar las dos tasas de apertura.
Al recopilar las tasas de respuesta empírica de los correos enviados reales, si la verdadera diferencia entre las tasas de respuesta es mayor al medio por ciento, deberíamos poder detectar esa diferencia como estadísticamente significativa con
Mis pensamientos hasta ahora
Asignamos aleatoriamente usuarios a cada uno de los 3 folletos, de modo que Los usuarios reciben cada folleto. Queremos saber quenecesitamos lograr nuestra sensibilidad deseada para detectar diferencias en las tasas de respuesta. Suponiendo el peor de los casos, debemos ser capaces de detectar una diferencia entre las tasas reales de 1% y 1.5%. El SD para esta diferencia es. Establecer el doble de esa cantidad (2 desviaciones estándar nos da un 95% de confianza) igual a .005 (nuestro medio porcentaje deseado) conduce a la solución.
Preguntas
- ¿Es este el diseño óptimo o podemos hacerlo mejor?
- Es mi cálculo de ¿correcto?
Finalmente, ¿cuál es la mejor manera de estimar y o simplemente la diferencia entre los dos?
Mi idea era asignar aleatoriamente la mitad de cada grupo de folletos a cada tipo de sobre. Dentro de cada grupo de folletos, las tasas de respuesta observadas serían el producto de las tasas de apertura y el. Esto complicaría mi cálculo de arriba, ya que realmente debería haber usado este producto en mi cálculo.
Mi respuesta dependería de una estimación de la tasa de apertura promedio: - que tendría que adivinar. Además, no estoy seguro de cómo determinar la distribución de la diferencia entre y , dado que ahora tenemos tres estimaciones diferentes de esa diferencia, cada una de las cuales depende de una diferencia , cada uno de los cuales solo tenemos estimaciones empíricas, estimaciones empíricas que dependen de nuestra estimación de la tasa de apertura promedio.
Muchas gracias por cualquier ayuda con esto.
Respuestas:
Existen fórmulas empíricas para determinar el tamaño de la muestra. La prueba subyacente es una prueba t de dos muestras para la igualdad de la métrica (tasa de respuesta en su caso). Suponiendo que desea que el poder de la prueba sea del 80%, una de esas fórmulas esn = 16σ2/ /Δ2 dónde σ es el desarrollo estándar de la métrica (tasa de respuesta) y Δ es la cantidad de cambio en la tasa de respuesta que desea resolver de manera confiable (con significación estadística).
Además, hay diseños factoriales fraccionales disponibles que le permiten optimizar el número de ensayos (suponiendo que no desea medir las interacciones de cada factor con cualquier otro factor). Esta es una encuesta sobre diseño experimental que describe los detalles.
fuente
Supongamos que enviaste folletosUNA y si a igual número de clientes , entoncesuna los usuarios responden al folleto UNA y si los usuarios responden al folleto si y b > a . Entonces el significado es
No importa cuántos usuarios recibieron sus folletos, solo cuántos respondieron.
fuente