¿SurveyMonkey ignora el hecho de que obtiene una muestra no aleatoria?

11

SurveyMonkey tiene pasos y una tabla para que pueda determinar qué tamaño de muestra necesita para un margen de error o intervalo de confianza dado, en función del tamaño de su población.

Tamaño de muestra de SurveyMonkey

¿Este gráfico simplemente ignora el hecho de que no obtendrá una muestra aleatoria, ya que solo obtiene las personas que se molestan en responder a la encuesta?

Cuando escribo esto, me advierten que la pregunta parece subjetiva, por lo que tal vez no la pregunte correctamente. En realidad no se trata de SurveyMonkey, pero es una pregunta más general: ¿puede realmente calcular intervalos de confianza a partir de datos de respuesta voluntaria utilizando algunas técnicas avanzadas que no conozco?

En las encuestas de salida o encuestas nacionales, obviamente deben abordar este problema. Mi educación no cubrió las técnicas de muestreo de encuestas en profundidad, pero supongo que implica recopilar datos demográficos y usarlos para saber qué tan representativa de una muestra tiene.

Pero aparte de eso, para una simple encuesta en línea, ¿están simplemente asumiendo que las personas que se molestan en responder son una muestra aleatoria de la población?

mate
fuente

Respuestas:

10

La respuesta corta es sí: Survey Monkey ignora exactamente cómo obtuvo su muestra. Survey Monkey no es lo suficientemente inteligente como para asumir que lo que ha reunido no es una muestra de conveniencia, pero prácticamente todas las encuestas de Survey Monkey son una muestra de conveniencia. Esto crea una discrepancia masiva en exactamente lo que está estimando que ninguna cantidad de muestreo puro puede / eliminará. Por un lado, podría definir una población (y sus asociaciones) que obtendría de un SRS. Por otro lado, puede definir una población definida por su muestreo no aleatorio, las asociaciones allí que puedeestimación (y las reglas de poder se mantienen para tales valores). Como investigador, depende de usted discutir la discrepancia y dejar que el lector decida exactamente qué tan válida podría ser la muestra no aleatoria para aproximarse a una tendencia real.

Como punto, hay usos inconsistentes del término sesgo. En la teoría de la probabilidad, el sesgo de un estimador está definido por . Sin embargo, un estimador puede ser sesgado, pero consistente, de modo que el sesgo "se desvanece" en muestras grandes, como el sesgo de las estimaciones de máxima verosimilitud de la desviación estándar de los RV distribuidos normalmente. es decir, . Los estimadores que no tienen un sesgo de fuga (por ejemplo, ) se denominan inconsistentesBiasn=θθ^nθ^pθθ^pθen teoría de la probabilidad Los expertos en diseño de estudios (como los epidemiólogos) han tomado el mal hábito de llamar a la inconsistencia "sesgo". En este caso, es sesgo de selección o sesgo voluntario. Ciertamente es una forma de sesgo, pero la inconsistencia implica que ninguna cantidad de muestreo corregirá el problema.

Para estimar las asociaciones de nivel de población a partir de datos de muestra de conveniencia, tendría que identificar correctamente el mecanismo de probabilidad de muestreo y utilizar la ponderación de probabilidad inversa en todas sus estimaciones. En situaciones muy raras, ¿tiene sentido? Identificar dicho mecanismo es casi imposible en la práctica. Un momento en que se puede hacer es en una cohorte de individuos con información previa a quienes se les acerca para completar una encuesta. La probabilidad de no respuesta se puede estimar como una función de esa información previa, por ejemplo, edad, sexo, SES, ... La ponderación le da la oportunidad de extrapolar qué resultados habrían sido en la población que no respondió. El censo es un buen ejemplo de la participación de la ponderación de probabilidad inversa para tales análisis.

AdamO
fuente
2
¿Podría elaborar un poco sobre el sentido en que una muestra de conveniencia podría considerarse inconsistente pero no sesgada ? Históricamente, muchas muestras de conveniencia han resultado ser severamente sesgadas (y "sesgado" es precisamente el término que la gente ha usado para describirlas): la encuesta Literary Digest de 1936 es quizás el ejemplo más famoso.
whuber
1
@whuber Perdona mi uso "inconsistente" de la terminología. El sesgo era algo que supuse que desaparecería en muestras grandes, mientras que las estimaciones que son inconsistentes nunca convergen en muestras grandes. En la teoría del problema, los ejemplos de estimadores inconsistentes son pocos y distantes entre sí, pero desde la perspectiva del diseño del estudio surgen todo el tiempo. Curiosamente, los epidemiólogos tienden a llamar a eso "sesgo" (es decir, sesgo de selección). Pero la pregunta de los carteles parecía sugerir que "muestrear más" aliviaría el sesgo, como podría ser el caso con un tipo de sesgo de teoría de probabilidad.
AdamO
No estoy seguro de haber entendido todo eso, así que permítanme concentrarme en una pequeña parte: ¿está (o no) afirmando que las muestras [convenientes] más grandes reducen el sesgo? Espero que no, porque eso es ciertamente falso! (Esta es una razón por la encuesta resumen literario es notoria: es uno de los más grandes jamás realizado y exhibido uno de los prejuicios más grandes, también.)
whuber
55
De hecho no! Muestrear más no eliminaría tal sesgo intrínseco. Ese es el problema aquí. El póster está interesado en el poder para estimar la asociación de la población con una muestra no aleatoria, y mi punto es que siempre tiene 0 poder para estimar eso (a menos que se empleen mecanismos de ponderación muy cuidadosos y complejos).
AdamO
1
Gracias por el último comentario; aclara una parte de su respuesta que, de lo contrario, podría haber malinterpretado. (+1)
whuber