¿Cómo diseñar experimentos para investigación de mercado (con un giro)?

8

Considere un tipo de subasta donde se le presenten, digamos, 1000 clientes potenciales. Según la información sobre estas perspectivas (edad, sexo, raza, ingresos, logros educativos y similares), puede 'ofertar' para presentar su producto a una fracción de ellos, digamos 250. (Ignore el costo de la oferta). Para maximizar sus posibilidades de seleccionar el subconjunto correcto, probablemente usaría un modelo de 'simpatía' de nuestro producto creado mediante regresión logística. Puedo buscar mi camino a través de esta parte lo suficientemente bien.

Sin embargo, para construir el modelo de simpatía del producto, tengo que hacer una investigación de mercado, probando la presentación del producto en temas que podemos reclutar de la población en general. Esto es realmente bastante costoso. Además, probablemente debería ajustarse a la demografía de la población de la que se extraen las perspectivas. Por ejemplo, un diseño factorial, por ejemplo, podría pedirnos que reclutemos sujetos de prueba en igual proporción a través de los niveles del factor racial, cuando en realidad es probable que encontremos muy pocos nativos americanos, digamos, en los 1000 prospectos, y simplemente podemos elige no lanzarles nada en general. (Triste pero cierto.)

¿Cómo debería diseñarse un experimento así? Para ser concretos, las variables de diseño son todos factores categóricos y ordinales, la fracción de licitación es un parámetro de entrada (1/4 en el ejemplo citado anteriormente), al igual que el número máximo de sujetos que se pueden reclutar. Parece que tal vez sea adecuada alguna combinación de diseño experimental y muestreo aleatorio, pero estoy abierto a todas las sugerencias e indicadores razonables.

También debo tener en cuenta que, dados los probables pequeños tamaños de efecto y los pequeños grupos de reclutamiento de muestras que podemos permitirnos, es poco probable que la investigación de mercado arroje coeficientes de regresión estadísticamente significativos. Y por lo tanto, optimizar demasiado el diseño experimental es probablemente una tontería, y cualquier procedimiento razonablemente insano será suficiente.

shabbychef
fuente
1
¿Podría aclarar cuáles son los factores del experimento que desea diseñar? Entiendo que desea probar un producto en una muestra, pero hasta ahora no puedo ver la manipulación experimental, excepto tal vez para el reclutamiento estratificado de diferentes dominios de población.
tomka
1
Sí, con el "experimento", me refiero a cómo elegir el grupo de reclutas. Podemos seleccionar reclutas para (casi) cualquier combinación de las variables demográficas (edad, raza, sexo, logros educativos, etc.) y esta es mi tarea.
shabbychef
1
¿Cuál es su razón principal para no usar una muestra de probabilidad simple de la población con n = 1000?
tomka
1
Debido a restricciones presupuestarias, el número de reclutas que podemos muestrear es mucho menor, del orden de 50. Para este tamaño y número de variables de diseño, una muestra aleatoria no se verá 'representativa' debido a un error de muestreo. Espero que a un diseño experimental le vaya mejor.
shabbychef
2
Creo que podría estar buscando una muestra estratificada para algunos de los grupos, pero esto no es un experimento. La idea sería asegurarse de que todos los grupos relevantes estén presentes en su conjunto de datos y luego utilizar la ponderación de diseño para la población. Aún así, n = 50 es quizás demasiado pequeño para estratificar para todos los datos sociodemográficos que usted menciona. Además, el error de muestreo podría reventar la calidad de sus predicciones, incluso si las asociaciones / tamaños de efecto serían fuertes.
tomka

Respuestas:

4

Un enfoque para su problema es usar una muestra estratificada. Uno de los propósitos de la estratificación es asegurarse de que ciertos dominios (grupos) de la población estén representados en la muestra, que de otro modo estarían representados de manera demasiado escasa para una inferencia válida, por ejemplo, debido a la pequeña probabilidad de selección.

Por ejemplo, si "Nativos americanos" es un grupo importante en términos de sus estimaciones del "modelo de similitud", pero su probabilidad de selección es muy pequeña, una muestra aleatoria simple (SRS) de tamaño podría contener no o solo muy pocas unidades de este tipo Si luego incluye a Nat. A.m. Como variable indicadora en el modelo, las estimaciones quizás serán extremadamente poco confiables (errores estándar grandes), o los parámetros no pueden estimarse en absoluto. El objetivo de una muestra estratificada es evitar esto.n=50

La estratificación significa seleccionar unidades con una probabilidad mayor de la que tendrían en un SRS. Al estimar su regresión logística / polinómica, podrá usar pesos de estratificación (pesos de diseño) para ajustar la mayor probabilidad de selección. Un peso se define comúnmente como donde es la probabilidad de selección en la muestra estratificada, y es la probabilidad de selección cuando se utiliza un SRS.

wi=πsπpop,
πsπpop

El problema en su aplicación particular es que probablemente no pueda estratificar para todas las características que menciona, dado el pequeño tamaño de la muestra (digamos ). En la estratificación, generalmente necesita cruzar todas las características y muestras de todas las celdas de la tabla de contingencia resultante. El número de celdas crece rápidamente con el número de características y categorías de cada característica, y en un punto de complejidad, ya no es posible llenar todas las celdas de manera suficiente dado un fijo .n=50n=50

Por lo tanto, mi consejo es mirar sus características y hacer una selección de la siguiente manera. Primero, haga una lista de todas las características que desea tener en el modelo final, porque asume que tendrán poder predictivo para la "simpatía" o identifican grupos que son importantes en el "proceso de licitación". Segundo, de estas características, distinga entre aquellas que implican una alta y baja probabilidad de selección durante el muestreo. Una probabilidad de selección baja es aquella que probablemente le dará muy pocas observaciones en una de las categorías dada una muestra SRS de tamaño .n

Por ejemplo, 'género' generalmente será una variable bien representada con una probabilidad de 50/50 en el pop., Por lo que incluso si tendrá hombres y mujeres 'suficientes', pero Nat. A.m. Puede que no sea una variable de este tipo, pero sigue siendo importante para su modelo. Un análisis de potencia puede proporcionar más orientación si es necesario, pero depende del modelo particular y puede ser muy complejo para la regresión politómica.n=50

Las características con probabilidad de selección demasiado baja son las candidatas para la estratificación, mientras que las variables con probabilidad de selección lo suficientemente alta / equilibrada en sus categorías pueden ignorarse en el diseño de muestreo. Ahora que ha identificado los estratos cruciales para su población y modelo , puede construir la estrategia de diseño de muestreo sobre ellos (es decir, muestrear al azar de todos los estratos relevantes para llenar todas las 'celdas').

Espero que al hacer esto termines con pocos estratos suficientes para seguir adelante con una muestra de tamaño .n=50

tomka
fuente
Esto me lleva un largo camino hacia donde necesito ir. ¡muchas gracias!
shabbychef