Si has estado leyendo los boletines de la comunidad últimamente, es probable que hayas visto The Hunting of the Snark, una publicación en el blog oficial de StackExchange de Joel Spolsky, CEO de la red StackExchange. Analiza un análisis estadístico realizado en una muestra de comentarios SE para evaluar su "amabilidad" desde la perspectiva de un usuario externo. Los comentarios se tomaron al azar de StackOverflow y los analistas de contenido eran miembros de la comunidad Mechanical Turk de Amazon, un mercado de trabajo que conecta a las empresas con los trabajadores que realizan tareas pequeñas y cortas por tarifas asequibles.
No hace mucho tiempo, era un estudiante graduado en ciencias políticas y una de las clases que tomé fue el Análisis Estadístico de Contenido . El proyecto final de la clase, de hecho, su propósito completo, era llevar a cabo un análisis detallado de los informes de guerra del New York Times, para probar si muchos de los supuestos que los estadounidenses hacen sobre la cobertura de noticias durante las guerras eran precisos (spoiler: la evidencia sugiere que son no). El proyecto fue enorme y bastante divertido, pero su sección más dolorosa fue la 'fase de prueba de capacitación y confiabilidad', que ocurrió antes de que pudiéramos realizar un análisis completo. Tenía dos propósitos (consulte la página 9 del documento vinculado para obtener una descripción detallada, así como referencias a los estándares de confiabilidad del intercodificador en la literatura estadística de análisis de contenido):
Confirme que todos los codificadores, es decir, los lectores del contenido, fueron entrenados en las mismas definiciones cualitativas. En el análisis de Joel, esto significaba que todos sabrían exactamente cómo el proyecto definía "amigable" y "hostil".
Confirme que todos los codificadores interpretaron estas reglas de manera confiable, es decir, muestreamos nuestra muestra, analizamos el subconjunto y luego demostramos estadísticamente que nuestras correlaciones por pares en las evaluaciones cualitativas fueron bastante similares.
Las pruebas de confiabilidad duelen porque tuvimos que hacerlo tres o cuatro veces. Hasta que -1- se bloqueó y -2- mostró correlaciones por pares suficientemente altas, nuestros resultados para el análisis completo fueron sospechosos. No se pudieron demostrar válidos o inválidos. Lo que es más importante, tuvimos que hacer pruebas piloto de confiabilidad antes del conjunto de muestra final.
Mi pregunta es la siguiente: el análisis estadístico de Joel careció de una prueba de confiabilidad piloto y no estableció ninguna definición operativa de "amabilidad". ¿Fueron los datos finales lo suficientemente confiables como para decir algo sobre la validez estadística de sus resultados?
Para una perspectiva, considere este manual sobre el valor de la confiabilidad del intercodificador y las definiciones operacionales consistentes. Desde lo más profundo en la misma fuente, puede leer sobre las pruebas de fiabilidad del piloto (elemento 5 de la lista).
Según la sugerencia de Andy W. en su respuesta, estoy tratando de calcular una variedad de estadísticas de confiabilidad en el conjunto de datos, que está disponible aquí, usando esta serie de comandos en R (actualizado a medida que calculo nuevas estadísticas).
Las estadísticas descriptivas están aquí.
Porcentaje de acuerdo (con tolerancia = 0): 0.0143
Porcentaje de acuerdo (con tolerancia = 1): 11.8
Alfa de Krippendorff: 0.1529467
También intenté un modelo de respuesta al ítem para estos datos en otra pregunta.
fuente
Respuestas:
Estas medidas de acuerdo establecen que prácticamente no existe un acuerdo categorial: cada codificador tiene su propio punto de corte interno para juzgar los comentarios como "amigables" o "hostiles".
Si suponemos que las tres categorías están ordenadas, es decir: antipático <neutral <amistoso, también podemos calcular la correlación intraclase como otra medida de acuerdo. En una muestra aleatoria de 1000 comentarios, hay un ICC (2,1) de .28 y un ICC (2, k) de .88. Eso significa que si solo tomara uno de los 20 evaluadores, los resultados serían muy poco confiables (.28), si toma el promedio de 20 evaluadores, los resultados son confiables (.88). Tomando diferentes combinaciones de tres evaluadores aleatorios, la confiabilidad promedio es de entre .50 y .60, que aún se consideraría demasiado baja.
La correlación bivariada promedio entre dos codificadores es 0,34, que también es bastante baja.
Si estas medidas de acuerdo se consideran una medida de calidad de los codificadores (que en realidad deberían mostrar un buen acuerdo), la respuesta es: no son buenos codificadores y deberían estar mejor capacitados. Si esto se ve como una medida de "qué tan bueno es el acuerdo espontáneo entre personas aleatorias", la respuesta también es: no muy alta. Como punto de referencia, la correlación promedio para las calificaciones de atractivo físico es de alrededor de .47 - .71 [1]
[1] Langlois, JH, Kalakanis, L., Rubenstein, AJ, Larson, A., Hallam, M. y Smoot, M. (2000). ¿Máximas o mitos de la belleza? Una revisión metaanalítica y teórica. Boletín psicológico, 126, 390-423. doi: 10.1037 / 0033-2909.126.3.390
fuente
La fiabilidad de los puntajes se interpreta con frecuencia en términos de la teoría de prueba clásica . Aquí uno tiene un puntaje verdadero
X
, pero lo que observa en cualquier resultado en particular no es solo el puntaje verdadero, sino el puntaje verdadero con algún error (es decirObserved = X + error
). En teoría, al tomar múltiples medidas observadas de la misma prueba subyacente (haciendo algunas suposiciones sobre la distribución de los errores de esas pruebas), se puede medir la puntuación verdadera no observada.Tenga en cuenta aquí, en este marco, que debe suponer que sus múltiples medidas observadas miden la misma prueba subyacente. La poca confiabilidad de los ítems de la prueba se toma frecuentemente como evidencia de que las medidas observadas no miden la misma prueba subyacente. Sin embargo, esto es solo una convención del campo, la poca confiabilidad, en sí misma, no prueba (en ningún sentido estadístico) que los ítems no midan la misma construcción. Por lo tanto, se podría argumentar que al tomar muchas medidas observadas, incluso con pruebas muy poco confiables, se podría obtener una medida confiable de la puntuación real.
También cabe mencionar que la teoría de prueba clásica no es necesariamente la única forma de interpretar tales pruebas, y muchos escolares argumentan que el concepto de variables latentes y la teoría de respuesta a ítems siempre es más apropiado que la teoría de prueba clásica.
También una suposición implícita similar en la teoría de prueba clásica es cuando la gente dice que la confiabilidad es demasiado alta. No dice nada acerca de la validez de si un elemento (s) particular (es) mide alguna prueba subyacente, pero cuando las confiabilidades son demasiado altas, los investigadores lo toman como evidencia de que los errores entre las pruebas no son independientes.
No estoy muy seguro de por qué estás tan vehemente por no entrar y calcular las confiabilidades por ti mismo. ¿Por qué no se puede hacer esto y posteriormente interpretar el análisis a la luz de esta información adicional?
fuente
before the final analysis
, por lo que no estoy muy seguro de dónde proviene esa noción.