Calcular la varianza Kappa de Cohen (y errores estándar)

44

La estadística Kappa ( κ ) fue introducida en 1960 por Cohen [1] para medir el acuerdo entre dos evaluadores. Sin embargo, su variación había sido una fuente de contradicciones durante bastante tiempo.

Mi pregunta es sobre cuál es el mejor cálculo de varianza que se utilizará con muestras grandes. Me inclino a creer que la probada y verificada por Fleiss [2] sería la elección correcta, pero esta no parece ser la única publicada que parece ser correcta (y utilizada en la literatura bastante reciente).

En este momento tengo dos formas concretas de calcular su varianza de muestra grande asintótica:

  • El método corregido publicado por Fleiss, Cohen y Everitt [2];
  • El método delta que se puede encontrar en el libro de Colgaton, 2009 [4] (página 106).

Para ilustrar algo de esta confusión, aquí hay una cita de Fleiss, Cohen y Everitt [2], énfasis mío:

Muchos esfuerzos humanos han sido maldecidos con repetidos fracasos antes de lograr el éxito final. La escala del Monte Everest es un ejemplo. El descubrimiento del Pasaje del Noroeste es un segundo. La derivación de un error estándar correcto para kappa es un tercero .

Entonces, aquí hay un pequeño resumen de lo que sucedió:

  • 1960: Cohen publica su artículo "Un coeficiente de acuerdo para escalas nominales" [1] presentando su medida de acuerdo corregida por azar entre dos evaluadores llamada κ . Sin embargo, publica fórmulas incorrectas para los cálculos de varianza.
  • 1968: Everitt intenta corregirlos, pero sus fórmulas también eran incorrectas.
  • 1969: Fleiss, Cohen y Everitt publican las fórmulas correctas en el documento "Errores estándar de muestra grande de Kappa y Kappa ponderado" [2].
  • 1971: Fleiss publica otra estadística κ (pero diferente) con el mismo nombre, con fórmulas incorrectas para las variaciones.
  • 1979: Fleiss Nee y Landis publican las fórmulas corregidas para Fleiss ' κ .

Al principio, considere la siguiente notación. Esta notación implica que el operador de suma debe aplicarse a todos los elementos en la dimensión sobre la cual se coloca el punto:

   pi.=j=1kpij p . j = k i = 1 p i j   p.j=i=1kpij

Ahora, uno puede calcular Kappa como:

   κ^=popc1pe

En el cual

   po=i=1kpii

   pc=i=1kpi.p.i

κ

   var^(κ^)=1N(1pc)4{i=1kpii[(1po)(p.i+pi.)(1po)]2   +(1po)2i=1kj=1ijkpij(p.i+pj.)2(popc2pc+po)2}

y bajo la hipótesis nula está dada por:

   var^(κ^)=1N(1pc)2{i=1kp.ipi.[1(p.i+pi.)2]+i=1kj=1,ijkp.ipj.(p.i+pj.)2pc2}

El método de Congalton parece estar basado en el método delta para obtener variaciones (Agresti, 1990; Agresti, 2002); sin embargo, no estoy seguro de cuál es el método delta o por qué debe usarse. La varianza , bajo este método, viene dada por:κ

   var^(κ^)=1n{θ1(1θ1)(1θ2)2+2(1θ1)(2θ1θ2θ3)(1θ2)3+(1θ1)2(θ44θ22)(1θ2)4}

en el cual

   θ1=1ni=1knii

   θ2=1n2i=1kni+n+i

   θ3=1n2i=1knii(ni++n+i)

   θ4=1n3i=1kj=1knij(nj++n+i)2

(Congalton usa un subíndice en lugar de a , Pero parece significar lo mismo. Además, supongo que debería ser una matriz de conteo, es decir, la matriz de confusión antes de dividirse por el número de muestras como relacionado por la fórmula )+.nijpij=nijsamples

Otra parte extraña es que el libro de Colgaton parece referir el artículo original de Cohen, pero no parece citar las correcciones a la variación de Kappa publicada por Fleiss et al, no hasta que continúa discutiendo Kappa ponderado. ¿Quizás su primera publicación fue escrita cuando la verdadera fórmula para kappa todavía estaba perdida en la confusión?

¿Alguien puede explicar por qué esas diferencias? ¿O por qué alguien usaría la variación del método delta en lugar de la versión corregida por Fleiss?

[1]: Fleiss, Joseph L .; Cohen, Jacob; Everitt, BS; Grandes errores estándar de muestra de kappa y kappa ponderada. Psychological Bulletin, Vol. 72 (5), noviembre de 1969, 323-327. doi: 10.1037 / h0028106

[2]: Cohen, Jacob (1960). Un coeficiente de acuerdo a las escalas nominales. Medida educativa y psicológica 20 (1): 37–46. DOI: 10.1177 / 001316446002000104.

[3]: Alan Agresti, Análisis de datos categóricos, segunda edición. John Wiley and Sons, 2002.

[4]: Russell G. Congalton y Green, K .; Evaluación de la precisión de los datos detectados remotamente: principios y prácticas, 2a edición. 2009

Cesar
fuente
algunos de tus paréntesis están apagados, ¿puedes arreglarlos? Además, es posible que desee formatear los paréntesis anidados como {[(x + y) ^ z + a] ^ b - c} para que sean más legibles.
StasK
Además, proporcione y formulaciones equivalentes alternativas si existen. Dependiendo de las formulaciones alternativas específicas, las expresiones de varianza pueden ser más fáciles de obtener. (Estoy pensando en el índice de Gini, para el cual existen aproximadamente cinco formulaciones para los datos de iid que implican estimadores de varianza totalmente diferentes para datos de encuestas complejas)κ
StasK
Gracias por la respuesta. He corregido las fórmulas y agregado cómo se calcula Kappa. La formulación de Kappa parece consistente en toda la literatura, solo que su variación no lo es.
Cesar
1
Por cierto, acabo de notar lo que parece ser un error de impresión en el libro de Colgaton: define , pero este viene de la nada. Supongo que estaba destinado a ser , de lo contrario no estoy seguro de que tenga mucho sentido. pc=i=1kpi+p+jjpc=i=1kpi+p+i
Cesar
2
Al menos puedo echarle una mano con esta parte: "No estoy seguro de cuál es el método delta" - en.wikipedia.org/wiki/Delta_method y la variación que viene de aquí
Glen_b

Respuestas:

7

No sé cuál de las dos formas de calcular la varianza es preferible, pero puedo darle una tercera forma práctica y útil para calcular la confianza / intervalos creíbles mediante el uso de la estimación bayesiana de Kappa de Cohen.

El código R y JAGS a continuación genera muestras de MCMC a partir de la distribución posterior de los valores creíbles de Kappa dados los datos.

library(rjags)
library(coda)
library(psych)

# Creating some mock data
rater1 <- c(1, 2, 3, 1, 1, 2, 1, 1, 3, 1, 2, 3, 3, 2, 3) 
rater2 <- c(1, 2, 2, 1, 2, 2, 3, 1, 3, 1, 2, 3, 2, 1, 1) 
agreement <- rater1 == rater2
n_categories <- 3
n_ratings <- 15

# The JAGS model definition, should work in WinBugs with minimal modification
kohen_model_string <- "model {
  kappa <- (p_agreement - chance_agreement) / (1 - chance_agreement)
  chance_agreement <- sum(p1 * p2)

  for(i in 1:n_ratings) {
    rater1[i] ~ dcat(p1)
    rater2[i] ~ dcat(p2)
    agreement[i] ~ dbern(p_agreement)
  }

  # Uniform priors on all parameters
  p1 ~ ddirch(alpha)
  p2 ~ ddirch(alpha)
  p_agreement ~ dbeta(1, 1)
  for(cat_i in 1:n_categories) {
    alpha[cat_i] <- 1
  }
}"

# Running the model
kohen_model <- jags.model(file = textConnection(kohen_model_string),
                 data = list(rater1 = rater1, rater2 = rater2,
                   agreement = agreement, n_categories = n_categories,
                   n_ratings = n_ratings),
                 n.chains= 1, n.adapt= 1000)

update(kohen_model, 10000)
mcmc_samples <- coda.samples(kohen_model, variable.names="kappa", n.iter=20000)

La siguiente gráfica muestra una gráfica de densidad de las muestras de MCMC de la distribución posterior de Kappa.

Densidad posterior de Kappa

Usando las muestras de MCMC, ahora podemos usar el valor medio como una estimación de Kappa y usar los cuantiles del 2.5% y 97.5% como un intervalo de confianza / credibilidad del 95%.

summary(mcmc_samples)$quantiles
##      2.5%        25%        50%        75%      97.5% 
## 0.01688361 0.26103573 0.38753814 0.50757431 0.70288890 

Compare esto con las estimaciones "clásicas" calculadas según Fleiss, Cohen y Everitt:

cohen.kappa(cbind(rater1, rater2), alpha=0.05)
##                  lower estimate upper
## unweighted kappa  0.041     0.40  0.76

Personalmente, preferiría el intervalo de confianza bayesiano sobre el intervalo de confianza clásico, especialmente porque creo que el intervalo de confianza bayesiano tiene mejores propiedades de muestra pequeña. Una preocupación común que las personas tienden a tener con los análisis bayesianos es que debe especificar creencias previas con respecto a la distribución de los parámetros. Afortunadamente, en este caso, es fácil construir antecedentes "objetivos" simplemente colocando distribuciones uniformes sobre todos los parámetros. Esto debería hacer que el resultado del modelo bayesiano sea muy similar a un cálculo "clásico" del coeficiente Kappa.

Referencias

Sanjib Basu, Mousumi Banerjee y Ananda Sen (2000). Inferencia bayesiana para Kappa de estudios únicos y múltiples. Biometrics , vol. 56, núm. 2 (junio de 2000), págs. 577-582

Rasmus Bååth
fuente
¿Sabes si hay una extensión de esto para más de dos evaluadores?
Fomite