Estoy un poco confundido con respecto al coeficiente de correlación intraclase y el ANOVA unidireccional. Según tengo entendido, ambos le dicen cuán similares son las observaciones dentro de un grupo, en relación con las observaciones en otros grupos.
¿Podría alguien explicar esto un poco mejor y quizás explicar la situación en la que cada método es más ventajoso?
Respuestas:
Ambos métodos se basan en la misma idea, la de descomponer la varianza observada en diferentes partes o componentes. Sin embargo, existen diferencias sutiles en si consideramos los elementos y / o evaluadores como efectos fijos o aleatorios. Además de decir qué parte de la variabilidad total se explica por el factor entre (o cuánto se separa la varianza entre la varianza residual), la prueba F no dice mucho. Al menos esto es válido para un ANOVA unidireccional donde asumimos un efecto fijo (y que corresponde al ICC (1,1) descrito a continuación). Por otro lado, el ICC proporciona un índice acotado al evaluar la confiabilidad de la calificación para varios evaluadores "intercambiables", o la homogeneidad entre las unidades analíticas.
Por lo general, hacemos la siguiente distinción entre los diferentes tipos de ICC. Esto se desprende del trabajo seminal de Shrout y Fleiss (1979):
Esto corresponde a los casos 1 a 3 en su Tabla 1. Se puede hacer una distinción adicional dependiendo de si consideramos que las calificaciones observadas son el promedio de varias calificaciones (se llaman ICC (1, k), ICC (2, k), e ICC (3, k)) o no.
En resumen, debe elegir el modelo correcto (unidireccional versus bidireccional), y esto se discute en gran parte en el artículo de Shrout y Fleiss. Un modelo unidireccional tiende a producir valores más pequeños que el modelo bidireccional; asimismo, un modelo de efectos aleatorios generalmente produce valores más bajos que un modelo de efectos fijos. Un ICC derivado de un modelo de efectos fijos se considera como una forma de evaluar la consistencia de los evaluadores (porque ignoramos la varianza del evaluador), mientras que para un modelo de efectos aleatorios hablamos de una estimación del acuerdo de los evaluadores (si los evaluadores son intercambiables o no). Solo los modelos de dos vías incorporan la interacción entre el evaluador y el sujeto, lo que puede ser de interés cuando se intenta desentrañar patrones de calificación atípicos.
La ilustración siguiente es fácilmente una copia / pasta de la ejemplo de
ICC()
en el psych paquete (datos provienen de Shrout y Fleiss, 1979). Los datos consisten en 4 jueces (J) que evalúan 6 sujetos u objetivos (S) y se resumen a continuación (supondré que se almacenan como una matriz R llamadasf
)Este ejemplo es interesante porque muestra cómo la elección del modelo puede influir en los resultados, por lo tanto, la interpretación del estudio de confiabilidad. Los 6 modelos ICC son los siguientes (esta es la Tabla 4 en el documento de Shrout y Fleiss)
Como se puede ver, considerar a los evaluadores como efectos fijos (por lo tanto, no tratar de generalizar a un grupo más amplio de evaluadores) produciría un valor mucho más alto para la homogeneidad de la medición. (Se podrían obtener resultados similares con el paquete irr (
icc()
), aunque debemos jugar con las diferentes opciones para el tipo de modelo y la unidad de análisis).¿Qué nos dice el enfoque ANOVA? Necesitamos ajustar dos modelos para obtener los cuadrados medios relevantes:
No es necesario mirar la prueba F, solo los MS son de interés aquí.
Ahora, podemos ensamblar las diferentes piezas en una tabla ANOVA extendida que se parece a la que se muestra a continuación (esta es la Tabla 3 en el documento de Shrout y Fleiss):
(fuente: mathurl.com )
donde las dos primeras filas provienen del modelo unidireccional, mientras que las dos siguientes provienen del ANOVA bidireccional.
Es fácil verificar todas las fórmulas en el artículo de Shrout y Fleiss, y tenemos todo lo que necesitamos para estimar la confiabilidad para una sola evaluación . ¿Qué pasa con la confiabilidad para el promedio de evaluaciones múltiples (que a menudo es la cantidad de interés en los estudios entre evaluadores)? Siguiendo a Hays y Revicki (2005), se puede obtener de la descomposición anterior simplemente cambiando el total de MS considerado en el denominador, excepto por el modelo de efectos aleatorios de dos vías para el que tenemos que reescribir la relación de MS.
Nuevamente, encontramos que la confiabilidad general es mayor cuando consideramos a los evaluadores como efectos fijos.
Referencias
fuente