Diferencias de grupo en un elemento Likert de cinco puntos

22

Continuando con esta pregunta : Imagine que quiere probar las diferencias en la tendencia central entre dos grupos (p. Ej., Hombres y mujeres) en un ítem Likert de 5 puntos (p. Ej., Satisfacción con la vida: Insatisfecho a Satisfecho). Creo que una prueba t sería lo suficientemente precisa para la mayoría de los propósitos, pero que una prueba de arranque de las diferencias entre las medias grupales a menudo proporcionaría una estimación más precisa de los intervalos de confianza. ¿Qué prueba estadística usarías?

Jeromy Anglim
fuente
2
Una pregunta relacionada: las personas a menudo usan la prueba no paramétrica de Mann-Whitney para este tipo de datos. Como solo hay cinco valores posibles, habrá muchos rangos empatados. La prueba de Mann-Whitney se ajusta para los rangos empatados, pero ¿funciona este ajuste cuando hay una gran cantidad de empates?
Harvey Motulsky
55
Puede que le interese este artículo reciente publicado en PARE, Elementos de Likert de cinco puntos: prueba t versus Mann-Whitney-Wilcoxon , j.mp/biLWrA .
chl
No estoy seguro de si la prueba de chi-cuadrado también es apropiada, prueba si existe alguna dependencia entre los grupos y los elementos (distribución diferente entre grupos).
pe-pe-rry

Respuestas:

12

Clason y Dormody discutieron el tema de las pruebas estadísticas para los elementos Likert ( Análisis de datos medidos por elementos individuales tipo Likert ). Creo que una prueba de arranque está bien cuando las dos distribuciones se ven similares (en forma de campana e igual varianza). Sin embargo, una prueba de datos categóricos (p. Ej., Prueba de tendencia o de Fisher, o regresión logística ordinal) también sería interesante, ya que permite verificar la distribución de la respuesta entre las categorías de elementos, consulte el libro de Agresti sobre Análisis de datos categóricos (Capítulo 7 sobre modelos de Logit para respuestas multinomiales ).

Aparte de esto, puede imaginar situaciones en las que la prueba t o cualquier otra prueba no paramétrica fallaría si la distribución de la respuesta está fuertemente desequilibrada entre los dos grupos. Por ejemplo, si todas las personas del grupo A responden 1 o 5 (en igual proporción) mientras que todas las personas del grupo B responden 3, entonces terminas con una media idéntica dentro del grupo y la prueba no tiene ningún significado, aunque en este caso El supuesto de homocedasticidad se viola en gran medida.

chl
fuente
El artículo de Clason y Dormody se ve bien. Sus comentarios de distribución de respuestas son interesantes de contemplar. Estoy de acuerdo en que las diferencias en las distribuciones pueden ser de interés. Pero si solo estuviera interesado en saber si los medios del grupo de población eran diferentes, no necesariamente importaría qué distribuciones dieron lugar a tal igualdad.
Jeromy Anglim
En este caso, está asumiendo que su escala Likert (en otras palabras, la diferencia percibida entre, por ejemplo, muy satisfecho y "solo" satisfecho) se comporta idealmente y se percibe que tiene el mismo significado en ambas poblaciones. Por lo tanto, está asumiendo implícitamente que se trata de una escala numérica, pero estoy de acuerdo en que esto a menudo se considera como tal en la investigación aplicada, especialmente si los participantes provienen del mismo país. Mi punto era solo enfatizar la perspectiva del análisis de datos categóricos, como generalmente se encuentra en la tradición del Análisis Factorial, como en mi respuesta a la Pregunta # 10.
chl
Supongo que la media de la muestra que responde a un elemento Likert es generalmente un resumen significativo de la posición del grupo en la dimensión subyacente. Es interesante pensar cuándo el significado de un elemento Likert variará sistemáticamente entre los grupos. Por supuesto, este problema se extiende más allá de los elementos de Likert, probablemente a cualquier procedimiento de medición subjetiva.
Jeromy Anglim
8

Dependiendo del tamaño del conjunto de datos en cuestión, una prueba de permutación podría ser preferible a una rutina de arranque ya que puede proporcionar una prueba exacta de la hipótesis (y un IC exacto).

russellpierce
fuente
4

En mi humilde opinión, no puede utilizar una prueba t para escalas Likert. La escala Likert es ordinal y "sabe" solo sobre las relaciones de valores de una variable: por ejemplo, "totalmente insatisfecho" es peor que "de alguna manera insatisfecho". Una prueba t, por otro lado, necesita calcular medias y más y, por lo tanto, necesita datos de intervalo. Puede asignar puntajes de la escala Likert a datos de intervalo ("totalmente insatisfecho" es 1 y así sucesivamente), pero nadie garantiza que "totalmente insatisfecho" esté a la misma distancia de "de alguna manera insatisfecho" como "de alguna manera insatisfecho" es de "ninguno ni". Por cierto: ¿cuál es la diferencia entre "totalmente insatisfecho" y "de alguna manera insatisfecho"? Entonces, al final, harías una prueba t de los valores codificados de tus datos ordinales, pero eso no tiene ningún sentido.

xmjx
fuente
99
... y aún así se hace comúnmente. Una cosa para señalar, y sí, esto es un poco pedante, si está utilizando un solo elemento de tipo Likert que no es una escala Likert. La diferencia es significativa (aunque el que hace la pregunta está hablando de un elemento Likert y la ordinalidad es un problema). Una escala Likert es una consecuencia de sumar o promediar varios elementos Likert. Este enfoque se desarrolló específicamente para compensar la medida en que los datos ordinales eran realmente ordinales y hacer que sea más razonable ser tratado como si estuviera en la escala de intervalos.
russellpierce
3

Si cada ítem en el cuestionario es ordinal, y no creo que este punto pueda ser discutido dado que no hay forma de saber si la diferencia cuantitativa entre "totalmente de acuerdo" y "de acuerdo" es la misma que entre " totalmente en desacuerdo "y" en desacuerdo ", entonces ¿por qué la suma de todas estas escalas de nivel ordinal produciría un valor que comparte las propiedades de los datos de nivel de intervalo verdadero?

Por ejemplo, si estamos interpretando los resultados de un inventario de depresión, no tiene sentido (al menos para mí) decir que una persona con una puntuación de "20" está dos veces más deprimida que una persona con una puntuación de " 10 ". Esto se debe a que cada elemento del cuestionario no mide las diferencias reales en los niveles de depresión (suponiendo que la depresión es un trastorno orgánico estable e interno), sino la calificación subjetiva de acuerdo de la persona con una declaración en particular. Cuando se le preguntó, "¿qué tan deprimido diría que su estado de ánimo está en una escala de 1-4, 1 está muy deprimido y 4 no está deprimido en absoluto", cómo sé que la calificación subjetiva de 1 de un encuestado es la misma que la de otro encuestado ? ¿O cómo puedo saber si la diferencia entre 4 y 3 es la misma que la de 3 y 4 en términos de la persona? s nivel actual de depresión. Si no podemos saber nada de esto, entonces no tiene sentido tratar la suma de todos estos elementos ordinales como datos de nivel de intervalo. Incluso si los datos forman una distribución normal, no creo que sea apropiado tratar las diferencias entre los puntajes como datos de nivel de intervalo si se calcularon sumando todas las respuestas a elementos similares. Una distribución normal de datos solo significa que las respuestas son probablemente representativas de la gran población; no implica que los valores obtenidos de los inventarios compartan propiedades importantes de datos de nivel de intervalo. Creo que es apropiado tratar las diferencias entre los puntajes como datos de nivel de intervalo si se calcularon sumando todas las respuestas a elementos similares. Una distribución normal de datos solo significa que las respuestas son probablemente representativas de la gran población; no implica que los valores obtenidos de los inventarios compartan propiedades importantes de datos de nivel de intervalo. Creo que es apropiado tratar las diferencias entre los puntajes como datos de nivel de intervalo si se calcularon sumando todas las respuestas a elementos similares. Una distribución normal de datos solo significa que las respuestas son probablemente representativas de la gran población; no implica que los valores obtenidos de los inventarios compartan propiedades importantes de datos de nivel de intervalo.

Debemos tener cuidado en las ciencias del comportamiento acerca de cómo usamos las estadísticas para hablar de las variables latentes que estamos estudiando, ya que no hay una forma directa de medir estas construcciones hipotéticas, habrá problemas significativos cuando intentemos cuantificarlas. a pruebas paramétricas. Nuevamente, el simple hecho de que hayamos asignado valores a un conjunto de respuestas no significa que las diferencias entre estos valores sean significativas.

Justin
fuente
1
Si está satisfecho sumando puntajes de los elementos, ya ha asumido un nivel de medición más que estrictamente ordinal. Estrictamente hablando, las medidas ordinales no pueden ser agregadas o promediadas de manera significativa (por cierto, Stevens es claro al respecto). Una vez que haya hecho eso, tratar las puntuaciones resultantes como datos de nivel de intervalo es perfectamente razonable.
Gala
0

El modelo de odds ratio proporcional es mejor que la prueba t para la escala de elementos Likert.

Wojtek
fuente
1
¿Te gustaría explicar tus razones? Puedo ver cómo tal modelo podría proporcionar un modelo más preciso de respuestas observadas. Sin embargo, en las situaciones típicas de investigación práctica que he visto, los investigadores están interesados ​​en saber si los dos grupos difieren en términos de la media (por ejemplo, si el grupo de capacitación reportó un mayor rendimiento que el control; la satisfacción del estudiante fue mayor un año al siguiente ) El modelo de odds ratio proporcional no prueba esta pregunta exactamente hasta donde yo sé.
Jeromy Anglim
0

Intentaré explicar el modelo de odds ratio proporcional en este contexto, ya que fue sugerido e indicado en al menos 2 respuestas a esta pregunta.

La prueba de puntaje de un modelo de probabilidades proporcionales es equivalente a la prueba de suma de rango de Wilcoxon.

Más precisamente, se demostró que el estadístico de prueba de puntaje sin efecto de una sola covariable dicotómica en un modelo de regresión logística acumulativa de probabilidades proporcionales (McCullagh 1980) para el resultado ordinal era igual al estadístico de prueba de suma de rangos de Wilcoxon. (Prueba en una extensión de la prueba de Wilcoxon Rank-Sum para datos de encuestas de muestras complejas ).

Al igual que la prueba de suma de rango de Wilcoxon, esta prueba detecta si dos muestras fueron tomadas de diferentes distribuciones, independientemente de los valores esperados.

Esta prueba no es válida si solo desea detectar si se extrajeron dos muestras de distribuciones con diferentes valores esperados, al igual que la prueba de suma de rango de Wilcoxon.

Marko Lalović
fuente