¿Cómo transformar los datos ordinales del cuestionario en datos de intervalo adecuados?

Esta respuesta discutirá posibles modelos desde una perspectiva de medición , donde se nos da un conjunto de variables o medidas interrelacionadas (manifiestas) observadas, cuya varianza compartida se supone que mide una construcción bien identificada pero no directamente observable (generalmente, en una reflexión manera), que se considerará como una variable latente . Si no está familiarizado con el modelo de medición de rasgos latentes, recomendaría los siguientes dos artículos: El ataque de los psicometristas , por Denny Borsbooom, y Modelado de variables latentes: una encuesta , por Anders Skrondal y Sophia Rabe-Hesketh. Primero haré una pequeña digresión con indicadores binarios antes de tratar con elementos con múltiples categorías de respuesta.

Una forma de transformar los datos de nivel ordinal en una escala de intervalos es usar algún tipo de modelo de Respuesta al elemento . Un ejemplo bien conocido es el modelo Rasch , que amplía la idea del modelo de prueba paralelo de la teoría de prueba clásica para hacer frente a los elementos con puntaje binario.a través de un modelo lineal de efectos mixtos generalizado (con enlace logit) (en algunas de las implementaciones de software 'modernas'), donde la probabilidad de respaldar un elemento dado es una función de 'dificultad del elemento' y 'habilidad de la persona' (suponiendo que no haya interacción entre la ubicación de uno en el rasgo latente que se está midiendo y la ubicación del elemento en la misma escala logit, que podría capturarse a través de un parámetro de discriminación de elemento adicional, o interacción con características individuales específicas, lo que se denomina funcionamiento diferencial del elemento ). Se supone que el constructo subyacente es unidimensional, y la lógica del modelo Rasch es solo que el encuestado tiene una cierta 'cantidad del constructo'; hablemos de la responsabilidad del sujeto (su 'habilidad'), $\theta$ , al igual que cualquier elemento que defina esta construcción (su 'dificultad'). Lo que es de interés es la diferencia entre la ubicación del encuestado y la ubicación del elemento en la escala de medición, . Para dar un ejemplo concreto, considere la siguiente pregunta: "Me resultó difícil concentrarme en algo más que mi ansiedad" (sí / no). Una persona que sufre de trastornos de ansiedad tiene más probabilidades de responder positivamente a esta pregunta en comparación con un individuo aleatorio tomado de la población general y que no tiene antecedentes de depresión o trastorno relacionado con la ansiedad. $\theta$

$N=766$ $\alpha=0.971$ $[0.967;0.975]$ ) Inicialmente, se propusieron cinco categorías de respuesta (1 = 'Nunca', 2 = 'Rara vez', 3 = 'A veces', 4 = 'A menudo' y 5 = 'Siempre') para cada ítem. Aquí solo consideraremos las respuestas con puntaje binario.

ingrese la descripción de la imagen aquí
_{(Aquí, las respuestas a los elementos de tipo Likert se han recodificado como respuestas binarias (1/2 = 0, 3-5 = 1), y consideramos que cada elemento es igualmente discriminatorio entre los individuos, de ahí el paralelismo entre las pendientes de las curvas de los elementos (Rasch modelo).)}

$x$

Para los artículos politómicos con categorías ordenadas, hay varias opciones: el modelo de crédito parcial , el modelo de escala de calificación o el modelo de respuesta graduada , por nombrar algunos que se utilizan principalmente en la investigación aplicada. Los dos primeros pertenecen a la denominada "familia Rasch" de modelos IRT y comparten las siguientes propiedades: (a) monotonicidad de la función de probabilidad de respuesta (curva de respuesta ítem / categoría), (b) suficiencia del puntaje individual total (con latente parámetro considerado como fijo), (c) independencia local, lo que significa que las respuestas a los ítems son independientes, condicionales al rasgo latente y (d) ausencia de funcionamiento diferencial del ítem lo que significa que, condicional al rasgo latente, las respuestas son independientes de las variables externas individuales específicas (p. ej., género, edad, etnia, SES).

Extendiendo el ejemplo anterior al caso en el que las cinco categorías de respuesta se tienen en cuenta de manera efectiva, un paciente tendrá una mayor probabilidad de elegir las categorías de respuesta 3 a 5, en comparación con alguien muestreado de la población general, sin ningún antecedente de trastornos relacionados con la ansiedad. En comparación con el modelo del ítem dicotómico descrito anteriormente, estos modelos consideran ya sea acumulativo (p. Ej., Probabilidades de responder 3 vs. 2 o menos) o umbral de categoría adyacente (probabilidades de responder 3 vs 2), que también se discute en la categoría de Agresti. Análisis de los datos(Capítulo 12). La principal diferencia entre los modelos mencionados anteriormente radica en la forma en que se manejan las transiciones de una categoría de respuesta a otra: el modelo de crédito parcial no supone que la diferencia entre una ubicación de umbral dada y la media de las ubicaciones de umbral en el rasgo latente sea igual o uniforme en todos los artículos, contrario al modelo de escala de calificación. Otra sutil diferencia entre esos modelos es que algunos de ellos (como la respuesta gradual sin restricciones o el modelo de crédito parcial) permiten parámetros de discriminación desiguales entre los ítems. Consulte Aplicación de modelos de teoría de respuesta a ítems para evaluar las propiedades de ítems y escalas del cuestionario , por Reeve y Fayers, o La base de la teoría de respuesta a ítems , por Frank B. Baker, para más detalles.

Debido a que en el caso anterior discutimos la interpretación de las curvas de probabilidad de respuestas para ítems dicotómicamente calificados, veamos las curvas de respuesta a ítems derivadas de un modelo de respuesta graduada, destacando los mismos ítems objetivo:

ingrese la descripción de la imagen aquí
_{(Modelo de respuesta gradual sin restricciones, lo que permite una discriminación desigual entre los ítems).}

Aquí, las siguientes observaciones merecen cierta consideración:

$[2;2.5]$
Existe un cambio general, de izquierda a derecha, entre el ítem que evalúa la calidad del sueño y los que evalúan afecciones más severas, aunque los trastornos del sueño no son infrecuentes. Esto es de esperar: después de todo, incluso las personas de la población general pueden experimentar algunas dificultades para conciliar el sueño, independientemente de su estado de salud, y es probable que las personas con depresión o ansiedad severa presenten tales problemas. Sin embargo, es poco probable que las 'personas normales' (si esto alguna vez tuvo algún significado) muestren algunos signos de trastorno de pánico (la probabilidad de que elijan la categoría de respuesta más alta es cero para las personas ubicadas en el rango intermedio o más del rasgo latente, [ 0; 1]).

$\theta$

Además de ser considerados como verdaderos modelos de medición , lo que hace que los modelos Rasch sean atractivos es que los puntajes de suma, como estadística suficiente , pueden usarse como sustitutos de los puntajes latentes. Además, la propiedad de suficiencia implica fácilmente la separabilidad de los parámetros del modelo (personas y elementos) (en el caso de los elementos politómicos, no se debe olvidar que todo se aplica al nivel de la categoría de respuesta al elemento), por lo tanto, la aditividad conjunta.

Una revisión bien de jerarquía del modelo IRT, la aplicación R, está disponible en el artículo Mair y de Hatzinger publicado en la revista Journal of Statistical Software : Extended Rasch Modelado: El paquete ERM para la aplicación de modelos de la TRI en I . Otros modelos incluyen modelos logarítmicos lineales , modelos no paramétricos, como el modelo de Mokken , o modelos gráficos .

Además de R, no estoy al tanto de las implementaciones de Excel, pero se propusieron varios paquetes estadísticos en este hilo: ¿Cómo comenzar a aplicar la teoría de respuesta a los ítems y qué software usar?

Finalmente, si desea estudiar las relaciones entre un conjunto de elementos y una variable de respuesta sin recurrir a un modelo de medición, también puede ser interesante alguna forma de cuantificación variable a través de una escala óptima . Además de las implementaciones de R discutidas en esos hilos, también se propusieron soluciones SPSS en hilos relacionados .

Referencias

Pilkonis, P., Choi, S., Reise, S., Stover, A. y Riley, W. et al. (2011) Los bancos de ítems para medir la angustia emocional del sistema de información de medición de resultados informados por el paciente (PROMIS): depresión, ansiedad e ira . Evaluación , 18 (3), 263–283.
Choi, S., Gibbons, L. y Crane, P. (2011). lordif: Un paquete R para detectar el funcionamiento diferencial de ítems utilizando regresión logística ordinal híbrida iterativa / Teoría de respuesta a ítems y simulaciones de monte carlo . Revista de software estadístico , 39 (8).

chl
fuente

@Momo Gracias. Eso es curioso Al responder (y reeditar esta respuesta hoy), no he notado tu comentario, que vale un gran +1. Por favor, siéntase libre de editar mi respuesta donde mejor le parezca.

chl

En su libro Análisis de datos categóricos ordinales , Alan Agresti cubre varios. Uno de ellos es ridits, que discuto en mi blog

Peter Flom - Restablece a Monica
fuente

¿Puedes explicar esto un poco más? A primera vista, parece que cualquier método que afirme traducir objetivamente datos ordinales a datos de intervalo sería mágico, ya que parece que siempre podría dar contraejemplos no tan patológicos que "romperían" cualquier método, pero podría faltar algo importante. También parece que requeriría alguna noción a priori de la distancia entre las categorías ordinales. ¿De dónde viene eso?

Macro

Las fórmulas están en la publicación del blog, y una discusión completa está en el libro de Agresti, pero esencialmente, usa los datos para crear "proporciones acumulativas promedio" y luego las usa como puntajes. La distancia proviene de las proporciones en cada respuesta, más que de cualquier cosa en las categorías mismas.

Peter Flom - Restablece a Monica

+1. Ridits se explican fácilmente como fracción menos + (1/2) fracción igual. Por lo tanto, si 1, 2, 3, 4, 5 han observado fracciones o probabilidades 0.2, 0.4, 0.2, 0.1, 0.1, entonces el valor de 1 es 0.1; el de 2 es 0.4, etc. Los Ridits tratan las categorías simétricamente y son menos propensos que la fracción menos o la fracción más para incluir 0 o 1 como resultado, lo que a menudo es incómodo.

Nick Cox

El nombre ridit fue intencionado por Bross (nota: se necesita referencia) y la supuesta explicación es un galimatías. Mejores nombres son la función de distribución media (Parzen 1993) y la función de grado Haberman (1996). Haberman, SJ 1996. Estadísticas avanzadas Volumen I: Descripción de poblaciones . Nueva York: Springer. Parzen, E. 1993. Cambie la gráfica de PP y la función cuantil de muestra continua. Comunicaciones en Estadística - Teoría y Métodos 22: 3287-3304.

Nick Cox

Los propios ridits pueden ser empujados a través de, por ejemplo, funciones cuantiles normales o gaussianas.

Nick Cox

¿Cómo transformar los datos ordinales del cuestionario en datos de intervalo adecuados?

Respuestas:

Referencias