He tenido problemas con el siguiente problema, espero que sea fácil para los estadísticos (soy un programador con cierta exposición a las estadísticas).
Necesito resumir las respuestas a una encuesta (para la administración). La encuesta tiene más de 100 preguntas, agrupadas en diferentes áreas (con aproximadamente 5 a 10 preguntas por área). Todas las respuestas son categóricas (en una escala ordinal, son como "en absoluto", "rara vez" ... "diariamente o con mayor frecuencia").
A la gerencia le gustaría obtener un resumen de cada área y este es mi problema: ¿cómo agregar respuestas categóricas dentro de la pregunta relacionada? . Las preguntas son demasiadas para hacer un gráfico o incluso un diagrama de celosía para cada área. Estoy a favor de un enfoque visual si es posible, en comparación con, por ejemplo, tablas con números (por desgracia, no las leerán).
Lo único que se me ocurre es contar el número de respuestas en cada área, luego trazar el histograma.
¿Hay algo más disponible para datos categóricos?
Uso R, pero no estoy seguro de si es relevante, creo que es más una cuestión de estadísticas generales.
fuente
Respuestas:
Realmente necesita averiguar cuál es la pregunta que está tratando de responder, o qué pregunta le interesa más a la gerencia. Luego, puede seleccionar las preguntas de la encuesta que sean más relevantes para su problema.
Sin saber nada sobre su problema o conjunto de datos, aquí hay algunas soluciones genéricas:
fuente
Hay un buen artículo sobre técnicas de visualización que puede usar Michael Friendly:
(En realidad, hay un libro completo dedicado a esto por el mismo autor). El paquete vcd en R implementa muchas de estas técnicas.
fuente
Las opciones estándar incluyen:
Dado que se está agregando sobre elementos y sobre grandes muestras de personas en la organización, ambas opciones anteriores (es decir, la media de 1 a 5 o la media de porcentaje por encima de un punto) serán confiables a nivel organizacional ( ver aquí para discusión adicional ). Por lo tanto, cualquiera de las opciones anteriores básicamente está comunicando la misma información.
En general, no me preocuparía el hecho de que los artículos sean categóricos. En el momento en que cree escalas agregando sobre elementos y luego agregue sobre su muestra de encuestados, la escala será una aproximación cercana a una escala continua.
La administración puede encontrar una métrica más fácil de interpretar. Cuando obtengo puntajes de Calidad de enseñanza (es decir, el puntaje promedio de satisfacción de los estudiantes de, digamos, 100 estudiantes), es el promedio en una escala de 1 a 5 y eso está bien. A lo largo de los años, después de ver mis propios puntajes año tras año y también de ver algunas normas para la universidad, he desarrollado un marco de referencia de lo que significan los diferentes valores. Sin embargo, la gerencia a veces prefiere pensar en el porcentaje que respalda una declaración, o el porcentaje de respuestas positivas, incluso cuando en cierto sentido es el porcentaje medio.
El desafío principal es dar un marco de referencia tangible para los puntajes. La gerencia querrá saber qué significan realmente los números . Por ejemplo, si la respuesta media para una escala es 4.2, ¿qué significa eso? ¿Esta bien? ¿Es mala? ¿Está bien?
Si está utilizando la encuesta durante varios años o en diferentes organizaciones, puede comenzar a desarrollar algunas normas. El acceso a las normas es una de las razones por las cuales las organizaciones a menudo obtienen un proveedor de encuestas externo o usan una encuesta estándar.
También es posible que desee realizar un análisis factorial para validar que la asignación de elementos a escalas es empíricamente justificable.
En términos de un enfoque visual, puede tener una línea simple o un gráfico de barras con el tipo de escala en el eje xy la puntuación en el eje y. Si tiene datos normativos, podría agregarlos también.
fuente
Si. Considero que la agrupación es un enfoque muy eficaz para la reducción de datos para reducir los datos de la encuesta tanto para la comprensión como para la presentación de la gestión.
El análisis de clase latente (tratando las escalas de respuesta como ordinales) o k-medias (tratándolos como continuos) puede verse como una forma de compresión de información . La clasificación de los encuestados en su segmento más probable generalmente produce una variable categórica que tiene explicaciones intuitivas cuando se perfila en términos de respuestas.
Luego puede nombrar los segmentos y utilizar esas variables para el análisis y la presentación de nivel de resumen.
Ajuste un grupo para grupos de elementos relacionados (por ejemplo, a continuación) o posiblemente todos juntos.
A menudo uso LatentGold, pero encuentro que FASTCLUS en SAS es un buen recurso.
Antes de hacerlo, debe considerar ajustar las respuestas de cada individuo para su uso de la escala (controvertido pero pragmático). Algunas personas simplemente se apoyan en un extremo de la escala, evitando lo negativo o lo positivo. Agrupar respuestas en bruto generalmente tiende a dividir a las personas por ese comportamiento.
La estandarización de las respuestas de cada encuestado a su propia media y su agrupación en eso a menudo expone variables que se mueven juntas de maneras muy interesantes.
fuente