Deje que el año 1 sean los datos del año pasado y el año 2 los datos de este año.
Suponga que en el año 1, tenía una escala likert que era 1-9 (categórica / ordinal) y que en el año 2, para la misma pregunta tenía una escala likert que era 1-5 (categórica / ordinal).
¿Cuáles serían algunas de las cosas que intentaría (si es que lo hace) para comparar los datos de dos años?
Lo que he hecho hasta ahora:
- Distribuciones comparadas (forma, sesgo y curtosis, estadísticamente iguales)
- Reescalado 1-9 a 1-5 y los cambios YoY en frecuencias coinciden con las expectativas lógicas derivadas de noticias / eventos de la industria y resultados de investigaciones cualitativas.
Nota: Esto no es tarea. También puede no tener una respuesta definitiva. Pero, necesito una mano!
¡Gracias por adelantado!
Respuestas:
Esta no es una respuesta completa; solo algunos puntos:
Si puede administrar ambas versiones de la escala a una submuestra, podría estimar qué puntajes correspondientes se encuentran en los dos formatos de respuesta. Entonces podría aplicar una fórmula de conversión que esté justificada empíricamente. Se me ocurren varias formas de hacerlo. Me interesaría si alguien tiene un documento académico sobre las mejores prácticas para hacer esto.
Si realiza un cambio de escala simple (1 = 1; 2 = 3; 3 = 5; 4 = 7; 5 = 9), no hay garantía de que esto sea justificable. Como una declaración amplia (al menos dentro de mi experiencia en la configuración de la organización), los cambios en la redacción del elemento y los cambios en las opciones de escala probablemente tengan un mayor efecto en las respuestas que cualquier cambio real en el atributo de interés. Como mínimo, debe verificar si los anclajes de escala utilizados son aproximadamente equivalentes en los dos formatos de respuesta.
fuente
[Técnicamente tienes elementos de encuesta, no escalas Likert; estos últimos están hechos de múltiples artículos. Véase, por ejemplo, Construcción de escala de calificación sumada de Paul Spector {Sage}.]
Los pasos que tome dependerán de la audiencia para la que está informando. Si es académico y riguroso, como un comité de disertación, puede enfrentar desafíos especiales. Si no es así, y si se siente cómodo con el formato común 1-5, ¿por qué no cambiar la escala para que se ajuste a eso y luego informar las medias y las desviaciones estándar (especialmente porque las formas, la inclinación y la curtosis no son diferentes de un año a otro? Presumo que las distribuciones son lo suficientemente normales como para expresar con precisión la tendencia central?).
-> ¿Por qué estoy tratando tus variables como las de nivel de intervalo? Los puristas pueden decir que las variables de nivel ordinal no deben informarse a través de medios o SD Bueno, sus comentarios sugieren, a pesar de su uso de "categórico / ordinal", que está tratando con un nivel ordinal de medición que realmente se siente cómodo tratando como intervalo -nivel. Después de todo, ¿por qué de otra manera evaluarías la asimetría o la curtosis? Supongo que su audiencia también estará de acuerdo y podrá relacionarse con estadísticas de nivel de intervalo, como los medios.
Suena bien que ya haya explorado los datos gráficamente. Si desea ir más allá de evaluar la magnitud de la diferencia y realizar una prueba de hipótesis, ¿por qué no hacer una prueba T (independiente o correlacionada, dependiendo de sus datos) comparando los puntajes 1-5 anteriores y los puntajes 1-5 posteriores, y produciendo un intervalo de confianza para la diferencia de medias. Aquí estoy asumiendo que tienes muestras aleatorias de una población.
fuente
Considere transformar las respuestas de ambos conjuntos de datos en puntajes z. Habrá una calidad ad hoc en cualquier tipo de reescalado, pero al menos de esta manera evitará tratar mecánicamente cualquier conjunto particular de intervalos en un elemento como equivalente a cualquier conjunto particular en el otro. Definitivamente seguiría este camino si estuviera usando los ítems como predictores o variables de resultado en cualquier tipo de análisis de varianza. Si estuviera haciendo algo con escalas compuestas, unas que agreguen medidas similares, probablemente haría esencialmente lo que propuse: convertiría las respuestas de los ítems en puntajes z antes de sumar o tomar su media para formar la escala compuesta; o formaría una escala con análisis factorial u otra técnica que use la matriz de covarianza de los ítems para determinar la afinidad de las respuestas a ellos.
fuente
Solo tuve que resolver este problema exacto. Teníamos una escala de 9 puntos que se cambió a una escala de 5 puntos en un rastreador que se remontaba 10 años. No solo eso, sino que algunas de las declaraciones también cambiaron. Y estábamos informando como una forma de Net Promoter Score.
La solución que usamos para aplicar es un diseño emparejado pidiéndole a cada encuestado algunas de las declaraciones anteriores de la manera anterior (así como de todas las nuevas). Solo le preguntamos a un par de la manera anterior en lugar de a todos, ya que esto minimiza la fatiga de los encuestados. Luego tomamos cada puntaje en la escala de 9 puntos y encontramos su promedio en el puntaje de 5 puntos y lo usamos para corregir el cambio de escala Y el cambio de enunciado. Esto es bastante similar a lo que se llama el "juicio semántico de valor de palabra fijo" en algunos documentos, pero en lugar de usar expertos para decidir el "valor de palabra", usamos datos reales de los encuestados.
Por ejemplo, si el puntaje promedio en la escala de 5 puntos fue 1.2 para aquellos encuestados que respondieron 2 en la escala de 9 puntos, entonces, para permitirnos comparar directamente los años con diferentes escalas en la escala de 5 puntos, reemplazaríamos los 2 en la escala de 9 puntos con 1.2, luego haga lo mismo para todos los puntajes de 9 puntos y proceda normalmente.
Hicimos algo similar para informar NPS. Pero primero convertimos la escala de 5 puntos a la escala NPS de 1 (promotor), 0 (pasivo), -1 (detractor), por ejemplo, si el promedio en la escala NPS fue 0.9 para un 2 en la escala de 9 puntos, entonces lo reemplazamos con 0.9, luego haga lo mismo para todos los puntajes de 9 puntos, y luego calcule NPS normalmente.
Para evaluar la efectividad de esto, primero comparamos los puntajes NPS 'no corregidos' usando las escalas de 9 y 5 puntos para ver si realmente había algún problema, y luego los 'corregidos'. Todavía no tengo los datos, ¡pero informaré cuando lo hagamos!
fuente