¿La "Caza del Snark" de Joel Spolsky publica un análisis de contenido estadístico válido?

Si has estado leyendo los boletines de la comunidad últimamente, es probable que hayas visto The Hunting of the Snark, una publicación en el blog oficial de StackExchange de Joel Spolsky, CEO de la red StackExchange. Analiza un análisis estadístico realizado en una muestra de comentarios SE para evaluar su "amabilidad" desde la perspectiva de un usuario externo. Los comentarios se tomaron al azar de StackOverflow y los analistas de contenido eran miembros de la comunidad Mechanical Turk de Amazon, un mercado de trabajo que conecta a las empresas con los trabajadores que realizan tareas pequeñas y cortas por tarifas asequibles.

No hace mucho tiempo, era un estudiante graduado en ciencias políticas y una de las clases que tomé fue el Análisis Estadístico de Contenido . El proyecto final de la clase, de hecho, su propósito completo, era llevar a cabo un análisis detallado de los informes de guerra del New York Times, para probar si muchos de los supuestos que los estadounidenses hacen sobre la cobertura de noticias durante las guerras eran precisos (spoiler: la evidencia sugiere que son no). El proyecto fue enorme y bastante divertido, pero su sección más dolorosa fue la 'fase de prueba de capacitación y confiabilidad', que ocurrió antes de que pudiéramos realizar un análisis completo. Tenía dos propósitos (consulte la página 9 del documento vinculado para obtener una descripción detallada, así como referencias a los estándares de confiabilidad del intercodificador en la literatura estadística de análisis de contenido):

Confirme que todos los codificadores, es decir, los lectores del contenido, fueron entrenados en las mismas definiciones cualitativas. En el análisis de Joel, esto significaba que todos sabrían exactamente cómo el proyecto definía "amigable" y "hostil".
Confirme que todos los codificadores interpretaron estas reglas de manera confiable, es decir, muestreamos nuestra muestra, analizamos el subconjunto y luego demostramos estadísticamente que nuestras correlaciones por pares en las evaluaciones cualitativas fueron bastante similares.

Las pruebas de confiabilidad duelen porque tuvimos que hacerlo tres o cuatro veces. Hasta que -1- se bloqueó y -2- mostró correlaciones por pares suficientemente altas, nuestros resultados para el análisis completo fueron sospechosos. No se pudieron demostrar válidos o inválidos. Lo que es más importante, tuvimos que hacer pruebas piloto de confiabilidad antes del conjunto de muestra final.

Mi pregunta es la siguiente: el análisis estadístico de Joel careció de una prueba de confiabilidad piloto y no estableció ninguna definición operativa de "amabilidad". ¿Fueron los datos finales lo suficientemente confiables como para decir algo sobre la validez estadística de sus resultados?

Para una perspectiva, considere este manual sobre el valor de la confiabilidad del intercodificador y las definiciones operacionales consistentes. Desde lo más profundo en la misma fuente, puede leer sobre las pruebas de fiabilidad del piloto (elemento 5 de la lista).

Según la sugerencia de Andy W. en su respuesta, estoy tratando de calcular una variedad de estadísticas de confiabilidad en el conjunto de datos, que está disponible aquí, usando esta serie de comandos en R (actualizado a medida que calculo nuevas estadísticas).

Las estadísticas descriptivas están aquí.

Porcentaje de acuerdo (con tolerancia = 0): 0.0143

Porcentaje de acuerdo (con tolerancia = 1): 11.8

Alfa de Krippendorff: 0.1529467

También intenté un modelo de respuesta al ítem para estos datos en otra pregunta.

reliability agreement-statistics methodology Christopher
fuente

La dio a conocer públicamente los datos de codificación por lo que se podía ir y evaluar la fiabilidad de los mismos codificadores si uno quería.

Andy W

Re: # 1 - Cabe señalar que esto no fue tanto un ejercicio sobre si los comentarios fueron amigables o no, sino más bien un ejercicio sobre si los comentarios fueron percibidos como amigables o no para un usuario externo.

Rachel

@ Rachel No creo que sea correcto. Si estuvieran midiendo cómo los extraños perciben los comentarios sobre SO, habrían necesitado un conjunto de muestra bastante mayor que 20 personas.

Christopher

Es la diferencia entre concluir algo acerca de cómo los extraños perciben los comentarios y concluir algo sobre los comentarios mismos. En el primer caso, necesitaría una muestra mucho más grande de personas, y la conclusión sería "Los externos piensan que el 2.3% de los comentarios SO son hostiles". En el segundo, es "2.3% de los comentarios SO son hostiles". Son conclusiones diferentes, y creo que la segunda podría no ser posible, porque no podemos demostrar que los codificadores evalúan los comentarios de manera similar sin una prueba de confiabilidad.

Christopher

Sin embargo, la amistad de Christopher es muy subjetiva. Dependiendo de a quién le pregunte, el mismo comentario puede verse como amigable y hostil. Por eso creo que es más importante obtener el punto de vista de una gran cantidad de usuarios aleatorios en lugar de alguien que tenga exactamente el mismo punto de vista que usted.

Rachel

Respuestas:

Porcentaje de acuerdo (con tolerancia = 0): 0.0143

Porcentaje de acuerdo (con tolerancia = 1): 11.8

Alfa de Krippendorff: 0.1529467

Estas medidas de acuerdo establecen que prácticamente no existe un acuerdo categorial: cada codificador tiene su propio punto de corte interno para juzgar los comentarios como "amigables" o "hostiles".

Si suponemos que las tres categorías están ordenadas, es decir: antipático <neutral <amistoso, también podemos calcular la correlación intraclase como otra medida de acuerdo. En una muestra aleatoria de 1000 comentarios, hay un ICC (2,1) de .28 y un ICC (2, k) de .88. Eso significa que si solo tomara uno de los 20 evaluadores, los resultados serían muy poco confiables (.28), si toma el promedio de 20 evaluadores, los resultados son confiables (.88). Tomando diferentes combinaciones de tres evaluadores aleatorios, la confiabilidad promedio es de entre .50 y .60, que aún se consideraría demasiado baja.

La correlación bivariada promedio entre dos codificadores es 0,34, que también es bastante baja.

Si estas medidas de acuerdo se consideran una medida de calidad de los codificadores (que en realidad deberían mostrar un buen acuerdo), la respuesta es: no son buenos codificadores y deberían estar mejor capacitados. Si esto se ve como una medida de "qué tan bueno es el acuerdo espontáneo entre personas aleatorias", la respuesta también es: no muy alta. Como punto de referencia, la correlación promedio para las calificaciones de atractivo físico es de alrededor de .47 - .71 [1]

[1] Langlois, JH, Kalakanis, L., Rubenstein, AJ, Larson, A., Hallam, M. y Smoot, M. (2000). ¿Máximas o mitos de la belleza? Una revisión metaanalítica y teórica. Boletín psicológico, 126, 390-423. doi: 10.1037 / 0033-2909.126.3.390

Felix S
fuente

La fiabilidad de los puntajes se interpreta con frecuencia en términos de la teoría de prueba clásica . Aquí uno tiene un puntaje verdadero X, pero lo que observa en cualquier resultado en particular no es solo el puntaje verdadero, sino el puntaje verdadero con algún error (es decir Observed = X + error). En teoría, al tomar múltiples medidas observadas de la misma prueba subyacente (haciendo algunas suposiciones sobre la distribución de los errores de esas pruebas), se puede medir la puntuación verdadera no observada.

Tenga en cuenta aquí, en este marco, que debe suponer que sus múltiples medidas observadas miden la misma prueba subyacente. La poca confiabilidad de los ítems de la prueba se toma frecuentemente como evidencia de que las medidas observadas no miden la misma prueba subyacente. Sin embargo, esto es solo una convención del campo, la poca confiabilidad, en sí misma, no prueba (en ningún sentido estadístico) que los ítems no midan la misma construcción. Por lo tanto, se podría argumentar que al tomar muchas medidas observadas, incluso con pruebas muy poco confiables, se podría obtener una medida confiable de la puntuación real.

También cabe mencionar que la teoría de prueba clásica no es necesariamente la única forma de interpretar tales pruebas, y muchos escolares argumentan que el concepto de variables latentes y la teoría de respuesta a ítems siempre es más apropiado que la teoría de prueba clásica.

También una suposición implícita similar en la teoría de prueba clásica es cuando la gente dice que la confiabilidad es demasiado alta. No dice nada acerca de la validez de si un elemento (s) particular (es) mide alguna prueba subyacente, pero cuando las confiabilidades son demasiado altas, los investigadores lo toman como evidencia de que los errores entre las pruebas no son independientes.

No estoy muy seguro de por qué estás tan vehemente por no entrar y calcular las confiabilidades por ti mismo. ¿Por qué no se puede hacer esto y posteriormente interpretar el análisis a la luz de esta información adicional?

Andy W
fuente

Así que primero permítanme señalar que ya no soy un estudiante de posgrado haciendo estadísticas por una buena razón: no era mi fuerte. Podría estar recordando mal la metodología. De todos modos, creo que usted y yo podríamos estar hablando de diferentes medidas de confiabilidad, o al menos hay investigaciones que sugieren que medir la confiabilidad del intercodificador antes de que se realice el análisis final es importante. He editado la pregunta para incluir una fuente que encontré en la web, que cita considerablemente más investigación sobre el tema.

Christopher el

Es un contexto diferente (confiabilidad de los ítems de prueba dicotómicos en lugar de algún resultado continuo), pero la lógica es funcionalmente la misma. Por eso no mencioné ninguna medida específica de confiabilidad (hay muchas). Su cita no insinúa nada before the final analysis, por lo que no estoy muy seguro de dónde proviene esa noción.

Andy W

Ah ja. Tienes razón, no es un requisito. Leyendo más en ese enlace que publiqué, parece que estas pruebas piloto se consideran una mejor práctica metodológica (busque la prueba piloto en ella).

Christopher

He cambiado mi pregunta para acomodar la nueva información. Gracias por la ayuda para corregir mi error.

Christopher

Otra pregunta está arriba.

Christopher