Estoy usando el Kappa de Cohen para calcular el acuerdo entre dos jueces.
Se calcula como:
donde es la proporción de acuerdo y la probabilidad de acuerdo por casualidad.
Ahora para el siguiente conjunto de datos, obtengo los resultados esperados:
User A judgements:
- 1, true
- 2, false
User B judgements:
- 1, false
- 2, false
Proportion agreed: 0.5
Agreement by chance: 0.625
Kappa for User A and B: -0.3333333333333333
Podemos ver que ambos jueces no han estado de acuerdo muy bien. Sin embargo, en el siguiente caso donde ambos jueces evalúan un criterio, kappa evalúa a cero:
User A judgements:
- 1, false
User B judgements:
- 1, false
Proportion agreed: 1.0
Agreement by chance: 1.0
Kappa for User A and B: 0
Ahora puedo ver que el acuerdo por casualidad es obviamente 1, lo que lleva a que kappa sea cero, pero ¿cuenta esto como un resultado confiable? El problema es que normalmente no tengo más de dos juicios por criterio, por lo que todos estos nunca se evaluarán en un kappa mayor que 0, lo que creo que no es muy representativo.
¿Estoy en lo cierto con mis cálculos? ¿Puedo usar un método diferente para calcular el acuerdo mutuo?
Aquí podemos ver que kappa funciona bien para múltiples juicios:
User A judgements:
- 1, false
- 2, true
- 3, false
- 4, false
- 5, true
User A judgements:
- 1, true
- 2, true
- 3, false
- 4, true
- 5, false
Proportion agreed: 0.4
Agreement by chance: 0.5
Kappa for User A and B: -0.19999999999999996
information-retrieval
etiqueta aquí.Respuestas:
La "corrección de probabilidad" en Cohen estima las probabilidades con las que cada evaluador elige las categorías existentes. La estimación proviene de las frecuencias marginales de las categorías. Cuando solo tiene 1 juicio para cada evaluador, esto significa que asume que la categoría elegida para este juicio único en general tiene una probabilidad de 1. Esto obviamente no tiene sentido ya que el número de juicios (1) es demasiado pequeño para estimar de manera confiable Las tasas base de todas las categorías.κκ κ
Una alternativa podría ser un modelo binomial simple: sin información adicional, podríamos suponer que la probabilidad de acuerdo entre dos evaluadores para un juicio es 0.5 ya que los juicios son binarios. Esto significa que asumimos implícitamente que ambos evaluadores seleccionan cada categoría con probabilidad 0.5 para todos los criterios. El número de acuerdos esperados por casualidad sobre todos los criterios sigue una distribución binomial con .p=0.5
fuente
Encuentro convincente la respuesta de Caracal, pero también creo que el Kappa de Cohen solo puede dar cuenta de una parte de lo que constituye la confiabilidad entre evaluadores. El porcentaje simple de calificaciones en el acuerdo representa otra parte, y la correlación entre calificaciones, una tercera. Se necesitan los tres métodos para obtener una imagen completa. Para más detalles, consulte http://pareonline.net/getvn.asp?v=9&n=4 :
fuente