Continuando con esta pregunta : Imagine que quiere probar las diferencias en la tendencia central entre dos grupos (p. Ej., Hombres y mujeres) en un ítem Likert de 5 puntos (p. Ej., Satisfacción con la vida: Insatisfecho a Satisfecho). Creo que una prueba t sería lo suficientemente precisa para la mayoría de los propósitos, pero que una prueba de arranque de las diferencias entre las medias grupales a menudo proporcionaría una estimación más precisa de los intervalos de confianza. ¿Qué prueba estadística usarías?
t-test
ordinal-data
likert
scales
Jeromy Anglim
fuente
fuente
Respuestas:
Clason y Dormody discutieron el tema de las pruebas estadísticas para los elementos Likert ( Análisis de datos medidos por elementos individuales tipo Likert ). Creo que una prueba de arranque está bien cuando las dos distribuciones se ven similares (en forma de campana e igual varianza). Sin embargo, una prueba de datos categóricos (p. Ej., Prueba de tendencia o de Fisher, o regresión logística ordinal) también sería interesante, ya que permite verificar la distribución de la respuesta entre las categorías de elementos, consulte el libro de Agresti sobre Análisis de datos categóricos (Capítulo 7 sobre modelos de Logit para respuestas multinomiales ).
Aparte de esto, puede imaginar situaciones en las que la prueba t o cualquier otra prueba no paramétrica fallaría si la distribución de la respuesta está fuertemente desequilibrada entre los dos grupos. Por ejemplo, si todas las personas del grupo A responden 1 o 5 (en igual proporción) mientras que todas las personas del grupo B responden 3, entonces terminas con una media idéntica dentro del grupo y la prueba no tiene ningún significado, aunque en este caso El supuesto de homocedasticidad se viola en gran medida.
fuente
Dependiendo del tamaño del conjunto de datos en cuestión, una prueba de permutación podría ser preferible a una rutina de arranque ya que puede proporcionar una prueba exacta de la hipótesis (y un IC exacto).
fuente
En mi humilde opinión, no puede utilizar una prueba t para escalas Likert. La escala Likert es ordinal y "sabe" solo sobre las relaciones de valores de una variable: por ejemplo, "totalmente insatisfecho" es peor que "de alguna manera insatisfecho". Una prueba t, por otro lado, necesita calcular medias y más y, por lo tanto, necesita datos de intervalo. Puede asignar puntajes de la escala Likert a datos de intervalo ("totalmente insatisfecho" es 1 y así sucesivamente), pero nadie garantiza que "totalmente insatisfecho" esté a la misma distancia de "de alguna manera insatisfecho" como "de alguna manera insatisfecho" es de "ninguno ni". Por cierto: ¿cuál es la diferencia entre "totalmente insatisfecho" y "de alguna manera insatisfecho"? Entonces, al final, harías una prueba t de los valores codificados de tus datos ordinales, pero eso no tiene ningún sentido.
fuente
Si cada ítem en el cuestionario es ordinal, y no creo que este punto pueda ser discutido dado que no hay forma de saber si la diferencia cuantitativa entre "totalmente de acuerdo" y "de acuerdo" es la misma que entre " totalmente en desacuerdo "y" en desacuerdo ", entonces ¿por qué la suma de todas estas escalas de nivel ordinal produciría un valor que comparte las propiedades de los datos de nivel de intervalo verdadero?
Por ejemplo, si estamos interpretando los resultados de un inventario de depresión, no tiene sentido (al menos para mí) decir que una persona con una puntuación de "20" está dos veces más deprimida que una persona con una puntuación de " 10 ". Esto se debe a que cada elemento del cuestionario no mide las diferencias reales en los niveles de depresión (suponiendo que la depresión es un trastorno orgánico estable e interno), sino la calificación subjetiva de acuerdo de la persona con una declaración en particular. Cuando se le preguntó, "¿qué tan deprimido diría que su estado de ánimo está en una escala de 1-4, 1 está muy deprimido y 4 no está deprimido en absoluto", cómo sé que la calificación subjetiva de 1 de un encuestado es la misma que la de otro encuestado ? ¿O cómo puedo saber si la diferencia entre 4 y 3 es la misma que la de 3 y 4 en términos de la persona? s nivel actual de depresión. Si no podemos saber nada de esto, entonces no tiene sentido tratar la suma de todos estos elementos ordinales como datos de nivel de intervalo. Incluso si los datos forman una distribución normal, no creo que sea apropiado tratar las diferencias entre los puntajes como datos de nivel de intervalo si se calcularon sumando todas las respuestas a elementos similares. Una distribución normal de datos solo significa que las respuestas son probablemente representativas de la gran población; no implica que los valores obtenidos de los inventarios compartan propiedades importantes de datos de nivel de intervalo. Creo que es apropiado tratar las diferencias entre los puntajes como datos de nivel de intervalo si se calcularon sumando todas las respuestas a elementos similares. Una distribución normal de datos solo significa que las respuestas son probablemente representativas de la gran población; no implica que los valores obtenidos de los inventarios compartan propiedades importantes de datos de nivel de intervalo. Creo que es apropiado tratar las diferencias entre los puntajes como datos de nivel de intervalo si se calcularon sumando todas las respuestas a elementos similares. Una distribución normal de datos solo significa que las respuestas son probablemente representativas de la gran población; no implica que los valores obtenidos de los inventarios compartan propiedades importantes de datos de nivel de intervalo.
Debemos tener cuidado en las ciencias del comportamiento acerca de cómo usamos las estadísticas para hablar de las variables latentes que estamos estudiando, ya que no hay una forma directa de medir estas construcciones hipotéticas, habrá problemas significativos cuando intentemos cuantificarlas. a pruebas paramétricas. Nuevamente, el simple hecho de que hayamos asignado valores a un conjunto de respuestas no significa que las diferencias entre estos valores sean significativas.
fuente
El modelo de odds ratio proporcional es mejor que la prueba t para la escala de elementos Likert.
fuente
Intentaré explicar el modelo de odds ratio proporcional en este contexto, ya que fue sugerido e indicado en al menos 2 respuestas a esta pregunta.
La prueba de puntaje de un modelo de probabilidades proporcionales es equivalente a la prueba de suma de rango de Wilcoxon.
Más precisamente, se demostró que el estadístico de prueba de puntaje sin efecto de una sola covariable dicotómica en un modelo de regresión logística acumulativa de probabilidades proporcionales (McCullagh 1980) para el resultado ordinal era igual al estadístico de prueba de suma de rangos de Wilcoxon. (Prueba en una extensión de la prueba de Wilcoxon Rank-Sum para datos de encuestas de muestras complejas ).
Al igual que la prueba de suma de rango de Wilcoxon, esta prueba detecta si dos muestras fueron tomadas de diferentes distribuciones, independientemente de los valores esperados.
Esta prueba no es válida si solo desea detectar si se extrajeron dos muestras de distribuciones con diferentes valores esperados, al igual que la prueba de suma de rango de Wilcoxon.
fuente