Encuestas: ¿Es el 25% de una gran base de usuarios representativa?

13

Actualmente, mi empleador está realizando una encuesta en toda la compañía sobre las actitudes hacia la oficina, es decir, Sentimiento. En el pasado, abrieron la encuesta en todas las áreas del negocio (supongamos que hay 10 departamentos muy diferentes) y todos los empleados dentro de ellos (supongamos 1000 empleados en total en toda la empresa). La cantidad de empleados en cada departamento no es igual y uno departamento particular es probablemente el 50% de la población total de las organizaciones.

Este año, la encuesta solo se está abriendo al 25% de la base total de empleados y la selección es 'aleatoria'

Por lo tanto, tengo dos consultas:

  • Si es una selección verdaderamente aleatoria de toda la base de empleados, ¿cómo es que una muestra estadísticamente válida suponiendo que todos esos empleados respondieron?

  • Si es aleatorio en un nivel por departamento, por ejemplo, el 25% de cada departamento, ¿cómo es que una muestra válida considerando un departamento es más del 50% de la población total?

Supuse que para determinar un sentimiento mayoritario en una empresa, se necesitaría al menos el 50% de la base de empleados en cada departamento para proporcionar un verdadero sentimiento de lectura.

Actualización : la encuesta no se aplica. No puede garantizarse una tasa de respuesta del 100% del 25% seleccionado. No hay incentivos o medios punitivos si la encuesta se completa o no.

Colin
fuente
2
Sugeriría que la encuesta sea tan pequeña (número / tipo de preguntas) como sea necesario, luego que sea obligatoria por la menor cantidad que sea necesario para que los empleados / gerentes no se quejen de que es una gran pérdida de tiempo. Si las personas se auto-seleccionan, eso garantiza un sesgo sistemático de alguna forma.
Nick T
Si está midiendo, entonces la media de alguna variable que normalmente se distribuye, luego de aproximadamente 20 respuestas, el tamaño de su intervalo +/- crecerá a un ritmo aproximado 1/sqrt(# responses). Por ejemplo, con 20 respuestas tendrás +/- .468 * sigma. Con 100 respuestas lo será +/- .198 * sigma. Con 1000 respuestas lo será +/- .062 * sigma.
Pace

Respuestas:

22

Piense en encuestas en la población general de, digamos, los Estados Unidos. Si necesitamos el 50% de la población para determinar la opinión mayoritaria, necesitaríamos una muestra de aproximadamente 160 millones, lo cual es realmente prohibitivo. Incluso una muestra del 1% es extrema (aproximadamente 3,2 millones), y rara vez se realiza. Una encuesta importante en los Estados Unidos, la Encuesta Social General, tiene tamaños de muestra entre 1,500 y casi 3,000. Entonces, una muestra del 25% no es en sí misma un problema.

Recuerde que una encuesta no es una elección o un referéndum. Para que este último sea legítimo, todas las personas elegibles deben tener la oportunidad de expresar su opinión. Para la encuesta, el propósito es obtener una buena estimación de la opinión promedio, y puede obtenerla con una muestra aleatoria. Por lo tanto, la empresa debe decidir cuál es el propósito de la encuesta: ¿es una forma para que los empleados den su opinión y participen en la empresa, o es una forma para que los gerentes obtengan información?

Ambos diseños de muestreo aseguran que se solicite el 25% de los empleados. Este último asegura que el departamento más pequeño esté representado en la encuesta. Si le preocupan los errores estándar, debe tener en cuenta la naturaleza anidada del muestreo, aunque no sospecho que eso importará mucho en este caso.

Maarten Buis
fuente
2
+1 pero vale la pena enfatizar que si no está interesado en la "opinión promedio", pero algo más, entonces se pueden necesitar muestras más grandes.
Tim
1
Gracias por la respuesta. Sin embargo, y fue mi omisión, no hay aplicación de la encuesta. Solo se pedirá el 25%, pero no están obligados a responder.
Colin
2
Eso también es normal. Si respondo una encuesta, sería difícil obligar a las personas a responder. Podría tratar de contratar a algunos matones para "persuadir" a mis encuestados, pero eso tendría algunas consecuencias éticas y legales ... Sin embargo, la falta de respuesta es un problema, pero es un problema con el que la mayoría de las encuestas tienen que lidiar.
Maarten Buis
7

Por etimología, " encuesta " ( sur-desde 'super', como en 'desde arriba' y -veydesde 'vista') significa obtener una visión general , no la imagen completa.

Siempre que el 25% sea verdaderamente aleatorio y no es decir, autoseleccionado (opt-in), entonces cumple con la definición del término. Si la encuesta es opcional, las respuestas serán representativas solo de aquellos que sientan la necesidad de responder. Por ejemplo, imagine un restaurante en el que uno podría completar una tarjeta de comentarios después de cenar. Incluso si la mayoría de los comensales están contentos, la mayoría de los comentarios serán negativos porque los clientes satisfechos ven pocas razones para dar su opinión.

dotancohen
fuente
1
¿Podría ampliar el efecto de la 'auto selección'? Esta encuesta no se aplica, es totalmente opcional y no hay incentivos o medios punitivos si la completa o no. Actualizaré mi pregunta de apertura.
Colin
66
@Colin: Si la encuesta es opcional, las respuestas serán representativas solo de aquellos que sientan la necesidad de responder. Por ejemplo, imagine un restaurante en el que uno podría completar una tarjeta de comentarios después de cenar. Incluso si la mayoría de los comensales están contentos, la mayoría de los comentarios serán negativos porque los clientes satisfechos ven pocas razones para dar su opinión.
dotancohen
1
@dotancohen Creo que la respuesta se beneficiaría mucho si este comentario se incluyera en ella.
Pere
@Pere: Gracias, me preocupaba que poner el comentario en la respuesta pudiera distraerlo desde el punto de vista etimológico. Pero tienes razón, y lo estoy agregando.
dotancohen
4

Otro punto de vista proviene de la teoría del diseño de experimentos.

El poder estadístico es la probabilidad de encontrar un efecto si es real ( fuente )

Cuatro factores afectan el poder:

  1. Tamaño del efecto
  2. Desviación estándar de la característica.
  3. Mayor tamaño de muestra
  4. Nivel de significancia deseado

Con base en estos elementos, puede escribir una ecuación matemática formal que relacione la potencia, el tamaño de la muestra, el tamaño del efecto, la desviación estándar y el nivel de significancia ( fuente )

Bajo un conjunto de supuestos , podría caracterizar su encuesta como un experimento y aprovechar el diseño del marco del experimento ( aquí hay un par de ejemplos). Hay una serie de conjeturas educadas para hacer; sin embargo, un modelo imperfecto podría ser mejor que ningún modelo.

IcannotFixThis
fuente
3

Siento dos preguntas. Uno sobre el tamaño de la muestra (25%, por qué no una mayoría) y otro sobre la técnica de muestreo (es realmente aleatorio, muestra 25% aleatoriamente en toda la empresa, muestra 25% aleatoriamente en cada departamento, o utiliza alguna otra distribución).

1) El tamaño de la muestra no necesita ser mayoritario. El tamaño de muestra requerido puede ser entre 0 y 100%, dependiendo de la precisión requerida para una relación de confianza o probabilidad dada.

100% de certeza nunca se obtiene (tampoco con un subconjunto de 50% o más). Lograr una precisión tan alta tampoco es el punto de muestreo y estimación.

Ver más sobre tamaños de muestra: https://en.wikipedia.org/wiki/Sample_size_determination

Si obtiene la ley de los grandes números, también puede tener una idea intuitiva.

La distribución de los promedios de todos los subconjuntos posibles (y su muestra será uno de ellos), se hará más pequeña y más cercana a la media de la distribución original, si aumenta el tamaño del subconjunto. Si selecciona a una persona, existe una posibilidad razonable de que encuentre una excepción, pero encontrar la misma excepción en la misma dirección dos veces es menos probable. Y así sucesivamente, cuanto mayor sea el tamaño del subconjunto muestreado, menor será la posibilidad de un subconjunto excepcional.

norte

¡Nota IMPORTANTE! Su estimación no dependerá del tamaño de la población de la que muestrea, sino de la distribución. de esa población.

En el caso de su departamento de tamaño 500. La desviación de los promedios de subconjuntos aleatorios (de tamaño 125) será 11 veces menor que la desviación original. Tenga en cuenta que el error en la medición (la desviación del promedio de los subconjuntos seleccionados al azar) es independiente del tamaño del departamento. Podría ser 500, 5000 o 50000, en todos los casos la estimación no se vería afectada siempre que tengan la misma distribución (ahora un departamento pequeño podría tener una distribución extraña, pero eso comienza a desaparecer para grupos más grandes).

2) El muestreo no necesita ser completamente aleatorio. Puede tener en cuenta la demografía.

Eventualmente, trataría a cada departamento por separado en este tipo de análisis y corregiría las variaciones entre los departamentos y la forma en que ha muestreado en estos departamentos de diferentes tamaños.

En esta corrección hay dos diferenciaciones importantes. Uno podría asumir la distribución entre grupos como una variable aleatoria o no. Si lo trata como una variable aleatoria, el análisis se vuelve más fuerte (eliminando algunos grados de libertad en el modelo), pero podría ser una suposición errónea si los diferentes grupos no son intercambiables como entidades aleatorias sin ningún efecto específico (lo que parece ser su caso, como me imagino que los departamentos tienen diferentes funciones y pueden tener sentimientos muy diferentes que no son aleatorios en relación con el departamento).

Sexto empírico
fuente
1
Gracias por la respuesta. Sin embargo, y fue mi omisión, no hay aplicación de la encuesta. Solo se pedirá el 25%, pero no están obligados a responder.
Colin
1
Luego hay una tercera pregunta adicional sobre las técnicas de muestreo y cómo se recopilan los datos. Para tales problemas, cómo lidiar con la falta de respuesta y otros aspectos de calidad de los datos, no hay una respuesta única. En cualquier caso (ya sea con preguntar al 50% o al 25%) si hay un gran problema con la respuesta, cualquier discusión sobre el análisis estadístico es solo de importancia secundaria. No mejorará mucho este estudio con más (por ejemplo, pedir> 50%) de muestreo y es mejor centrarse en un buen muestreo.
Sextus Empiricus
2

Su pregunta es sobre el tamaño de la muestra para una población finita. Pero lo primero que necesita es el tamaño de muestra requerido en una población infinita, que luego puede usarse para calcular el tamaño de muestra para una población finita.

En una encuesta de una población infinita, la fórmula es: norte=(z2pagq)/ /re2
norte, tamaño de la muestra
z2, nivel de confianza, generalmente 1,96
pag, proporción de la población con una característica, si se desconoce, use 0.5
q=1-pag, proporción de la población sin una característica
re2, nivel de error (también conocido como margen de error), generalmente 3%, pero se puede usar 1% o 5%.

El nivel de error se convierte en el factor más importante porque cuanto menor es el nivel de error, mayor es el tamaño de muestra requerido y viceversa. Por lo tanto, el tamaño de la muestra para una población infinita con un 3% de error es:(1,96×0.5 0.5×0.5 0.5)/ /0,032=1,068. Además, el nivel de error significa que los resultados tienen un error de +/- 3%, en este caso. Esto significa que si el 48% de las personas en la encuesta eran hombres, entonces el rango posible es 48% +/- 3%, o 45% a 51%.

El siguiente paso es la fórmula del tamaño de la muestra para una población finita: metro=norte/ /(1+((norte-1)/ /norte))
metro, tamaño de muestra para población finita
norte, tamaño de muestra para población infinita (1,068 desde arriba)
norte, tamaño de población finito

Usando el ejemplo de norte=1,000, el tamaño de muestra requerido con un error del 3% sería 1068/ /(1+((1068-1)/ /1000))=517, o 51.7% de la población.

Si usó el 25% de la población, el nivel de error sale como 5.4%. Este nivel de error puede estar bien en base a encuestas anteriores. Con las encuestas siempre hay una compensación entre el nivel de error que está dispuesto a aceptar y los costos de hacer la encuesta.

Ninguno de estos factores en la tasa de respuesta (si se usa una muestra aleatoria simple). Para saber cuántas personas necesitan ser contactadas, divida el tamaño de la muestra por la tasa de respuesta esperada. Por ejemplo, si la tasa de respuesta anterior fue del 65%, deberá enviar el instrumento de encuesta a517/ /0,65=796 personas.

Las cosas se vuelven más complejas si desea dividir la población por departamento (conocido como estratificación). Básicamente, debe tratar a cada departamento como una población finita separada si desea que los datos sean precisos para cada departamento, lo que puede no ser práctico. Pero podría hacer una muestra aleatoria estratificada en lugar de una muestra aleatoria simple, donde el 50% de la muestra se selecciona aleatoriamente del departamento con el 50% de la población, y los porcentajes adecuados se muestrean aleatoriamente de otros departamentos. Significará que el tamaño de su muestra aumentará ligeramente porque necesita redondear todos los decimales (no puede encuestar 0.1 de una persona). Sin embargo, los resultados deben examinarse a nivel de población (empresa) y no a nivel de departamento porque no habrá suficientes respuestas de cada departamento para ser exactos.

mjc
fuente
1

Al hablar de una muestra válida, la noción subyacente suele ser de representación. ¿La muestra "representa" a la población adecuadamente? Para obtener una muestra representativa, es necesario asegurarse de que el tamaño de la muestra sea adecuado (para reducir la varianza de la estimación) y que la muestra contenga miembros que pertenezcan a los subconjuntos de la población que exhiben diferentes tipos de comportamiento. bajo consideración.

Primero, la proporción de usuarios seleccionados para la encuesta es menor en comparación con el número absoluto de usuarios seleccionados. El tamaño de muestra requerido dependerá del requisito de precisión o intervalo de confianza en la respuesta dada. Puedes leer este artículo para más información.

Usted menciona que la empresa consta de varios departamentos. ¿Es probable que los departamentos varíen en sus respuestas a la encuesta? Si lo hacen (o tal vez no lo sabe con certeza), sería una buena idea "estratificar" su muestra en los departamentos. En su forma más simple, esto significa elegir una proporción igual de personas de cada departamento. Por ejemplo: el tamaño de la empresa es 1000, y el tamaño de muestra elegido es 100. Luego, elegiría 50 de un departamento de tamaño 500, 10 de un departamento de tamaño 100, etc. Esto es para evitar la representación insuficiente de un departamento particular en cualquier muestra "aleatoria" específica.

También mencionas que no todos pueden responder a la encuesta. Si sabe que aproximadamente la mitad de las personas responderán, para obtener 100 respuestas, deberá enviar la encuesta a 200 personas. Deberá considerar la posibilidad de que tales respuestas puedan estar sesgadas. Las personas con una respuesta particular pueden estar más o menos inclinadas a responder.

raghu
fuente
1

Si es una selección verdaderamente aleatoria de toda la base de empleados , ¿cómo es que una muestra estadísticamente válida suponiendo que todos esos empleados respondieron?

Es una muestra válida siempre que se extraiga de la población que debe describir. Es decir, si solo muestra jefes, no se puede decir nada sobre los otros empleados; eso no sucederá en la configuración que ha descrito. Sin embargo, puede suceder debido a la falta de respuesta (más sobre eso a continuación).

Si es aleatorio en un nivel por departamento, por ejemplo, el 25% de cada departamento, ¿cómo es que una muestra válida considerando un departamento es más del 50% de la población total?

Esto ya no es una cuestión de validez de la muestra, sino una cuestión de error de muestreo. Obviamente, las estimaciones más precisas se obtendrían de un sorteo aleatorio estratificado, el estrato abarcando al menos el nivel de departamento. En este contexto, tendrá una muestra válida para cada departamento, pero las estimaciones para los departamentos pequeños generalmente serán menos precisas que las estimaciones para los departamentos grandes, gracias al mayor tamaño absoluto de la muestra para este último. Para la organización en general, la mayor representación de la muestra de departamentos más grandes simplemente refleja la realidad de la organización y de ninguna manera reduce la validez de la muestra.

La encuesta no se aplica. No puede garantizarse una tasa de respuesta del 100% del 25% seleccionado. No hay incentivos o medios punitivos si la encuesta se completa o no.

No podrá obligar a nadie a proporcionar una buena respuesta, pero implementar un plan de recordatorio de respuesta es mínimo. Además, debe explicar la relevancia de la encuesta para los empleados y el impacto que pueden tener en la organización gracias a la encuesta: por ejemplo, ¿ cuándo se publican los resultados? ¿Cuáles son las posibles acciones emprendidas por la organización en función de la encuesta? ¿Por qué importa cada respuesta?

Una vez que se recopilan los datos, la falta de respuesta es un problema que debe abordarse. Tratar con esto significa que primero debe analizar el comportamiento de no respuesta para detectar posibles patrones: ¿no ha respondido ningún jefe? ¿Un departamento dado no ha respondido en absoluto? Luego adopte la estrategia necesaria (post-estrafificación, reponderación, imputación, etc.).

g3o2
fuente
1

Estoy ampliando la respuesta de @ICannotFixThis con un ejemplo de cómo importan los cuatro factores involucrados:

  1. Tamaño del efecto
  2. Desviación estándar de la característica.
  3. Mayor tamaño de muestra
  4. Nivel de significancia deseado

La forma en que estos factores afectan sus resultados dependerá de la estadística que esté utilizando. Por ejemplo, si desea adivinar la media de alguna variable, puede usar la prueba T de Student .

Supongamos que desea calcular la altura promedio de sus empleados con esta encuesta. En realidad, no conoce la desviación estándar de la altura de todos los empleados de su empresa (sin medir a todos), pero podría investigar un poco y adivinar a 3 pulgadas (es aproximadamente la desviación estándar de la altura para los hombres en los EE. UU.).

Si encuestó solo a 5 personas, entonces el 95% del tiempo la altura promedio que observa en su encuesta estará dentro de 3.72 pulgadas de la altura promedio real.

Ahora, ¿cómo afectan nuestros factores esto:

  1. Si necesita conocer la altura promedio con mucha precisión (por ejemplo, el tamaño del efecto es muy pequeño), necesitará una gran cantidad de muestras. Por ejemplo, para conocer la verdadera altura promedio dentro de 2.66 pulgadas, necesitaría encuestar a 100 personas.

  2. Si la desviación estándar es grande, entonces la precisión que puede obtener será limitada. Si la desviación estándar fuera de 6 pulgadas en lugar de 3 pulgadas y todavía tuviera 5 respuestas, solo sabría dentro de 7.44 pulgadas en lugar de 3.72 pulgadas la altura promedio real.

  3. Omitiendo este punto, ya que es el foco de toda la discusión.

  4. Si realmente necesita asegurarse de tener la respuesta correcta, entonces deberá encuestar a más personas. En nuestro ejemplo, vimos que con 5 respuestas podríamos obtener 3,72 pulgadas el 95% del tiempo. Si quisiéramos estar seguros de que nuestra respuesta estuvo en el rango correcto el 99% del tiempo, nuestro rango será de 6.17 pulgadas y no de 3.72 pulgadas.

Paso
fuente