¿Cómo lidiar con la pregunta de la encuesta con respuesta múltiple?

10

Tengo un conjunto de datos que pregunta a las personas si han estado en ciertos lugares (por ejemplo, A, B, C, D), y pueden hacer más de una elección, luego se les extrae una muestra de la nariz para ver si están infectados con algunos enfermedad.

Necesito averiguar el riesgo relativo de infectarse para alguien que va a un lugar determinado, solo puedo pensar en la regresión logística en este momento, ¿hay alguna otra sugerencia?

Gracias.

lokheart
fuente

Respuestas:

2

Todavía puede usar la regresión logística porque su resultado es dicotómico, infectado vs no infectado. Simplemente tomaría un enfoque de variable ficticia y no usaría el viaje como categoría de referencia (es decir, para cada uno de sus lugares tiene una variable codificada como 1 si visitaron ese lugar y codificada como 0 si no visitaron ese lugar). Como tal, si transforma sus coeficientes beta en probabilidades (es decir, exponga las probabilidades de registro), la interpretación de la variable ficticia para la ubicación A sería la razón de probabilidades de la ubicación de visita A sobre la ubicación de no visita A que controla otros lugares visitados. También tenga en cuenta en este enfoque que la multicolinealidad es una preocupación (por ejemplo, si muchas de las personas que viajan a A también viajan a B, puede sesgar cada uno de sus coeficientes).

Andy W
fuente
55
Este modelo supone que la respuesta es una función aditiva de viajar a cada lugar, lo cual es altamente improbable. Todavía se puede hacer que funcione mediante la inclusión de términos de interacción. Es posible que se necesite un conjunto completo de todas las interacciones posibles (más allá de las interacciones bidireccionales). (Eso sería matemáticamente idéntica a proporcionar un maniquí separada para cada combinación posible de destinos.)
whuber
44
Mejor tener muchos datos si usa todas las interacciones (15 parámetros) en lugar de solo los efectos principales (4 parámetros) ...
Stephan Kolassa
@whuber y @Stephen, gracias por las respuestas, y estoy completamente de acuerdo con cada uno de ustedes. Personalmente, estaría de acuerdo con el enfoque de variable ficticia de efectos principales si las respuestas múltiples no fueran tan comunes, lo que puede no ser una suposición sostenible debido a las preocupaciones de los carteles originales. Quizás propondría otros diseños si el póster original estuviera interesado en el riesgo de viajar a A vs B (como algún tipo de procedimiento de correspondencia). Y estoy de acuerdo en que el riesgo aditivo no tiene sentido, excepto si se produce algún sesgo de selección.
Andy W