¿Modelo de muestreo para datos de crowdsourcing?

Estoy trabajando en una aplicación de encuesta de salud abierta, planeada para ser utilizada en países en desarrollo.

La idea básica es que las entrevistas de la encuesta son de crowdsourcing : son realizadas por voluntarios no organizados que envían datos de formularios de las entrevistas que realizaron utilizando sus dispositivos móviles, y cada encuesta está acompañada por los datos GPS de la ubicación de la entrevista.

Las encuestas tradicionales compiladas por agencias gubernamentales generalmente se implementan utilizando algún modelo de muestreo estándar, generalmente un modelo de muestreo probabilístico. Esto requiere mucha planificación centralizada que no siempre se puede realizar. (mencioné esto para poner mi pregunta en el contexto correcto)

Podemos decir que un voluntario implementará una muestra de conveniencia en su área. Entrevistará arbitrariamente a la cantidad de personas que puede contactar.

El problema básico es: ¿Cómo se puede entender y caracterizar el modelo de muestreo general de este sistema topográfico? ¿Existen metodologías o modelos compuestos para tratar estos casos?

sampling al-Amjad Tawfiq Isstaif
fuente

Respuesta corta: esta es una muestra de conveniencia. No hay nada que puedas hacer para justificarlo.

Una respuesta algo más larga: estás en el mismo barco que muchas redes sociales que ejecutan sus encuestas internas sin tener mucha idea de quién respondería a una encuesta de una pregunta que aparecería al azar en Facebook o Google + ... excepto que, a diferencia de estos gigantes, no No tengo datos sobre aquellos que no respondieron. La encuesta y la comunidad de investigación de la opinión pública generalmente desaprueban este tipo de trabajo, ya que no está del todo claro cómo los resultados de estas muestras muy sesgadas se pueden generalizar a la población total (si es que lo hay). Puede intentar volver a pesar de acuerdo con la demografía conocida, pero luego terminará con una variación de pesos de 1 para una persona que solo se representa a sí misma a 1,000,000 asignados al único 70+ hombres en la población que sabe cómo usar una computadora (y es probable que no sea representativo de los 1,000,000 70+ hombres restantes, de todos modos).

Lectura adicional: "Cómo mentir con estadísticas" comienza con un capítulo sobre muestras sesgadas. Si puede leerlo y no llorar de frustración por el diseño de su muestra, puede continuar. Si confía en voluntarios, su muestra estará sesgada hacia las poblaciones jóvenes y urbanas con un mejor acceso a dispositivos electrónicos. Del mismo modo, el folleto "¿Qué es una encuesta?" Elaborado por Fritz Scheuren, ex presidente de la Asociación Estadounidense de Estadística, abre con la imagen de Harry Truman, cuya victoria no podría haber sido predicha por las técnicas de votación sesgadas que existían en ese momento.

Hay algunas investigaciones sobre poblaciones difíciles de alcanzar . Un proyecto bien conocido fue un estudio sobre el número de muertes en exceso en Irak, donde se tomaron muestras de áreas geográficas, y en cada área, el médico local trataría de solicitar entrevistas a todos los hogares en el bloque de la ciudad. Ha habido una creciente crítica de este diseño, pero por muy comprometido que sea, todavía tenía su componente de muestreo. Vea los documentos en Lancet (como probablemente sepa, no puede obtener más prestigio en el mundo médico) http://dx.doi.org/10.1016/S0140-6736(04)17441-2 y http: //dx.doi .org / 10.1016 / S0140-6736 (06) 69491-9 .

StasK
fuente

(+1) Stas, ¿hay algo fundamentalmente diferente aquí del muestreo de cuotas ? Curiosamente, una lectura superficial de la pregunta hace que parezca un cambio en la terminología. Además, brevemente, ¿cuáles son las principales críticas del estudio de muestreo por conglomerados de Iraq? Recuerdo haber visto esto cuando salió por primera vez y leer un poco sobre él.

cardenal

Supongo que una diferencia es que no hay cuota por individuo ...;)

cardenal

¡Muchas gracias! ¡Ahora entiendo bien antes de rediseñar la idea!

al-Amjad Tawfiq Isstaif

en.wikipedia.org/wiki/Lancet_surveys_of_Iraq_War_casualties

StasK

Creo que hubo problemas con el pequeño número de grupos, y un grupo terminó siendo un caso atípico donde la actividad militar era mucho más alta que en cualquier otro lugar del país. Para mí, lo primero a tener en cuenta serían las declaraciones de AAPOR y ASA sobre el estudio. Mientras que Lancet puede ser una gran revista médica, y John Hopkins, un gran médico, olisqueando a la autoridad de AAPOR y negándoles los documentos metodológicos no era profesional.

StasK

¿Modelo de muestreo para datos de crowdsourcing?

Respuestas: