¿Cómo resumir datos categóricos?

13

He tenido problemas con el siguiente problema, espero que sea fácil para los estadísticos (soy un programador con cierta exposición a las estadísticas).

Necesito resumir las respuestas a una encuesta (para la administración). La encuesta tiene más de 100 preguntas, agrupadas en diferentes áreas (con aproximadamente 5 a 10 preguntas por área). Todas las respuestas son categóricas (en una escala ordinal, son como "en absoluto", "rara vez" ... "diariamente o con mayor frecuencia").

A la gerencia le gustaría obtener un resumen de cada área y este es mi problema: ¿cómo agregar respuestas categóricas dentro de la pregunta relacionada? . Las preguntas son demasiadas para hacer un gráfico o incluso un diagrama de celosía para cada área. Estoy a favor de un enfoque visual si es posible, en comparación con, por ejemplo, tablas con números (por desgracia, no las leerán).

Lo único que se me ocurre es contar el número de respuestas en cada área, luego trazar el histograma.

¿Hay algo más disponible para datos categóricos?

Uso R, pero no estoy seguro de si es relevante, creo que es más una cuestión de estadísticas generales.

categorical-data data-transformation descriptive-statistics wishihadabettername
fuente

¿Qué tal PCA / FA?

Reduciría las

esto podría ser demasiado, si la gerencia pregunta "¿cómo obtuvo los números agregados?" querrán una técnica más simple para que puedan (sentir) entenderla. Por desgracia, el mundo real :-( Gracias, sin embargo.

wishihadabettername

10

Realmente necesita averiguar cuál es la pregunta que está tratando de responder, o qué pregunta le interesa más a la gerencia. Luego, puede seleccionar las preguntas de la encuesta que sean más relevantes para su problema.

Sin saber nada sobre su problema o conjunto de datos, aquí hay algunas soluciones genéricas:

Representar visualmente las respuestas como grupos. Mi favorito es usar dendrogramas o simplemente trazar en un eje xy ("análisis de clúster r" de Google y pasar al primer resultado por statmethods.net)
Clasifique las preguntas de mayor a menor "diaria o con mayor frecuencia". Este es un ejemplo que puede no funcionar exactamente para usted, pero tal vez lo inspire http://www.programmingr.com/content/building-scoring-and-ranking-systems-r
Tablas cruzadas: si, por ejemplo, tiene una pregunta: "¿Con qué frecuencia llega tarde al trabajo?" y "¿Con qué frecuencia usa Facebook?", al cruzar las dos preguntas, puede averiguar el porcentaje de personas que rara vez hacen ambas cosas, o que hacen las dos cosas todos los días. )
Correlogramas No tengo ninguna experiencia con estos, pero también lo vi en el sitio web statmethods.net. Básicamente, encuentra qué preguntas tienen la mayor correlación y luego crea una tabla. Puede resultarle útil aunque parezca "ocupado".

Dimitry L
fuente

Marcaré esto como la respuesta; hay varias buenas sugerencias, así que pensaré cómo aplicarlas.

wishihadabettername

9

Hay un buen artículo sobre técnicas de visualización que puede usar Michael Friendly:

Visualización de datos categóricos: datos, historias e imágenes

(En realidad, hay un libro completo dedicado a esto por el mismo autor). El paquete vcd en R implementa muchas de estas técnicas.

ars
fuente

votó por la referencia al periódico y al libro, los leeré

wishihadabettername

8

Las opciones estándar incluyen:

obtener la media de los elementos dentro de una escala (por ejemplo, si la escala es de 1 a 5, la media será de 1 a 5)
convertir cada ítem en una medida binaria (p. ej., si ítem> = 3, luego 1, más 0) y luego tomar la media de esta respuesta binaria

Dado que se está agregando sobre elementos y sobre grandes muestras de personas en la organización, ambas opciones anteriores (es decir, la media de 1 a 5 o la media de porcentaje por encima de un punto) serán confiables a nivel organizacional ( ver aquí para discusión adicional ). Por lo tanto, cualquiera de las opciones anteriores básicamente está comunicando la misma información.

En general, no me preocuparía el hecho de que los artículos sean categóricos. En el momento en que cree escalas agregando sobre elementos y luego agregue sobre su muestra de encuestados, la escala será una aproximación cercana a una escala continua.

La administración puede encontrar una métrica más fácil de interpretar. Cuando obtengo puntajes de Calidad de enseñanza (es decir, el puntaje promedio de satisfacción de los estudiantes de, digamos, 100 estudiantes), es el promedio en una escala de 1 a 5 y eso está bien. A lo largo de los años, después de ver mis propios puntajes año tras año y también de ver algunas normas para la universidad, he desarrollado un marco de referencia de lo que significan los diferentes valores. Sin embargo, la gerencia a veces prefiere pensar en el porcentaje que respalda una declaración, o el porcentaje de respuestas positivas, incluso cuando en cierto sentido es el porcentaje medio.

El desafío principal es dar un marco de referencia tangible para los puntajes. La gerencia querrá saber qué significan realmente los números . Por ejemplo, si la respuesta media para una escala es 4.2, ¿qué significa eso? ¿Esta bien? ¿Es mala? ¿Está bien?

Si está utilizando la encuesta durante varios años o en diferentes organizaciones, puede comenzar a desarrollar algunas normas. El acceso a las normas es una de las razones por las cuales las organizaciones a menudo obtienen un proveedor de encuestas externo o usan una encuesta estándar.

También es posible que desee realizar un análisis factorial para validar que la asignación de elementos a escalas es empíricamente justificable.

En términos de un enfoque visual, puede tener una línea simple o un gráfico de barras con el tipo de escala en el eje xy la puntuación en el eje y. Si tiene datos normativos, podría agregarlos también.

Jeromy Anglim
fuente

1

Si. Considero que la agrupación es un enfoque muy eficaz para la reducción de datos para reducir los datos de la encuesta tanto para la comprensión como para la presentación de la gestión.

El análisis de clase latente (tratando las escalas de respuesta como ordinales) o k-medias (tratándolos como continuos) puede verse como una forma de compresión de información . La clasificación de los encuestados en su segmento más probable generalmente produce una variable categórica que tiene explicaciones intuitivas cuando se perfila en términos de respuestas.

Luego puede nombrar los segmentos y utilizar esas variables para el análisis y la presentación de nivel de resumen.

Ajuste un grupo para grupos de elementos relacionados (por ejemplo, a continuación) o posiblemente todos juntos.

Q14cluser <-  Q14(a..m):  Which of the following... Check all that apply
QEcluster <-  QE1..QE30:  Rate your agreement with .. Scale of 1-5

A menudo uso LatentGold, pero encuentro que FASTCLUS en SAS es un buen recurso.

Antes de hacerlo, debe considerar ajustar las respuestas de cada individuo para su uso de la escala (controvertido pero pragmático). Algunas personas simplemente se apoyan en un extremo de la escala, evitando lo negativo o lo positivo. Agrupar respuestas en bruto generalmente tiende a dividir a las personas por ese comportamiento.

La estandarización de las respuestas de cada encuestado a su propia media y su agrupación en eso a menudo expone variables que se mueven juntas de maneras muy interesantes.

prototipo
fuente

¿Cómo resumir datos categóricos?

Respuestas: