Alrededor de 600 estudiantes tienen un puntaje en una evaluación extensa, que se puede suponer que tiene buena fiabilidad / validez. La evaluación se califica entre 100 y es una prueba de opción múltiple marcada por computadora.
Esos 600 estudiantes también tienen puntajes en una segunda evaluación menor. En esta segunda parte de la evaluación, se separan en 11 cohortes con 11 calificadores diferentes, y existe un grado de variación indeseablemente grande entre los calificadores en términos de su 'generosidad' en el marcado, o la falta del mismo. Esta segunda evaluación también se califica de 100.
Los estudiantes no fueron asignados a cohortes al azar, y hay buenas razones para esperar diferencias en los niveles de habilidad entre cohortes.
Se me presenta la tarea de asegurar que las diferencias entre los marcadores de cohorte en la segunda asignación no aporten ventajas / desventajas materiales a estudiantes individuales.
Mi idea es lograr que las puntuaciones de la cohorte en la segunda evaluación sean coherentes con las puntuaciones de la cohorte en la primera, manteniendo las diferencias individuales dentro de las cohortes. Deberíamos asumir que tengo buenas razones para creer que el desempeño en las dos tareas estará altamente correlacionado, pero que los marcadores difieren considerablemente en su generosidad.
¿Es este el mejor enfoque? Si no, ¿qué es?
Sería muy apreciado si el respondedor pudiera dar algunos consejos prácticos sobre cómo implementar una buena solución, por ejemplo, en R o SPSS o Excel.
fuente
Respuestas:
Saber cómo difieren grado es buena, pero aún no le dice lo que para compensar los grados a . Para simplificar, imagine solo dos estudiantes de grado. Incluso si concluimos que el grado 1 es consistentemente 5 puntos más generosos que el grado 2, eso no le dice qué hacer con dos estudiantes que fueron calificados 70, uno por grado 1 y otro por grado 2. ¿Decimos que grado 2 fue un marcador áspero y aumentó ese 70 a 75, mientras que los 70 marcados por el grado 1 sin cambios? ¿O suponemos que el alumno de grado 1 fue excesivamente indulgente, redujo a su alumno a 65 puntos y mantuvo los 70 de grado 2 sin cambios? ¿Nos comprometemos a mitad de camino, extendiéndonos a su caso, en base a un promedio de los 11 grados? Lo que importa son las calificaciones absolutas, por lo que conocer la relativa generosidad no es suficiente.
Su conclusión puede depender de cuán "objetivo" sienta que debería ser la marca absoluta final. Un modelo mental sería proponer que cada estudiante tenga una calificación "correcta", la que otorgaría el Asesor Principal si tuviera tiempo de marcar cada trabajo individualmente, a la cual las calificaciones observadas son aproximaciones. En este modelo, las calificaciones observadas deben ser compensadas por su calificador, para acercarlas lo más posible a su calificación "verdadera" no observada. Otro modelo podría ser que todas las calificaciones son subjetivas, y buscamos transformar cada calificación observada hacia la calificación que predecimos que se habría otorgado si todos los estudiantes hubieran considerado el mismo trabajo y hubieran alcanzado algún tipo de compromiso o calificación promedio. El segundo modelo me parece menos convincente como solución, incluso si la admisión de subjetividad es más realista. En un entorno educativo, generalmente hay alguien que tiene la responsabilidad final de la evaluación, para garantizar que los estudiantes reciban "la calificación que se merecen", pero este papel principal esencialmente ha absuelto la responsabilidad a los mismos estudiantes que ya sabemos que están en desacuerdo. De aquí en adelante asumoes una calificación "correcta" que pretendemos estimar, pero esta es una propuesta discutible y puede no ajustarse a sus circunstancias.
Suponga que los estudiantes A, B, C y D, todos en la misma cohorte, "deberían" ser calificados como 75, 80, 85 y 90 respectivamente, pero su generoso calificador constantemente marca 5 puntos demasiado altos. Observamos 80, 85, 90 y 95 y debemos restar 5, pero encontrar la cifra para restar es problemático. No se puede hacer comparando los resultados entre cohortes, ya que esperamos que las cohortes varíen en la capacidad promedio. Una posibilidad es usar los resultados de las pruebas de opción múltiple para predecir los puntajes correctos en la segunda tarea, luego usar esto para evaluar la variación entre cada calificador y las calificaciones correctas. Pero hacer esta predicción no es trivial: si espera una media y una desviación estándar diferentes entre las dos evaluaciones, no puede simplemente asumir que las calificaciones de la segunda evaluación deberían coincidir con la primera.
Además, los estudiantes difieren en aptitud relativa en evaluaciones de opción múltiple y evaluaciones escritas. Podría tratarse como un tipo de efecto aleatorio, formando un componente de las calificaciones "observadas" y "verdaderas" del estudiante, pero no capturadas por su calificación "predicha". Si las cohortes difieren sistemáticamente y los estudiantes en una cohorte tienden a ser similares, entonces no deberíamos esperar que este efecto promedie a cero dentro de cada cohorte. Si las calificaciones observadas de una cohorte promedian +5 en comparación con las predichas, es imposiblepara determinar si esto se debe a un calificador generoso, una cohorte particularmente más adecuada para la evaluación escrita que la opción múltiple, o alguna combinación de los dos. En un caso extremo, la cohorte incluso puede tener una aptitud más baja en la segunda evaluación, pero un calificador muy generoso lo compensó con creces, o viceversa. No puedes romper esto aparte. Está confundido
También dudo de la idoneidad de un modelo aditivo tan simple para sus datos. Los calificadores pueden diferir del Asesor Principal no solo por el cambio de ubicación, sino también por la propagación, aunque dado que las cohortes probablemente varían en homogeneidad, no puede simplemente verificar la propagación de las calificaciones observadas en cada cohorte para detectar esto. Además, la mayor parte de la distribución tiene puntajes altos, bastante cerca del máximo teórico de 100. Anticiparía esta introducción de no linealidad debido a la compresión cerca del máximo: un calificador muy generoso puede otorgar marcas A, B, C y D como 85, 90, 94, 97. Esto es más difícil de revertir que simplemente restar una constante. Peor aún, es posible que vea "recorte": un calificador extremadamente generoso puede calificarlos como 90, 95, 100, 100. Esto es imposiblerevertir, y la información sobre el rendimiento relativo de C y D se pierde irrecuperablemente.
Sus calificadores se comportan de manera muy diferente. ¿Está seguro de que difieren solo en su generosidad general, en lugar de en su generosidad en varios componentes de la evaluación? Puede valer la pena verificar esto, ya que podría introducir varias complicaciones, por ejemplo, la calificación observada para B puede ser peor que la de A, a pesar de que B sea 5 puntos "mejor", incluso si las calificaciones asignadas por el calificador para cada componente son una función monotónicamente creciente del asesor principal! Suponga que la evaluación se divide entre Q1 (A debería obtener una puntuación de 30/50, B 45/50) y Q2 (A debería obtener una puntuación de 45/50, B 35/50). Imagine que el calificador es muy indulgente con Q1 (calificaciones observadas: A 40/50, B 50/50) pero duro con Q2 (observado: A 42/50, 30/50), luego observamos un total de 82 para A y 80 para B. Si tiene que considerar las puntuaciones de los componentes,
Podría decirse que este es un comentario extendido en lugar de una respuesta, en el sentido de que no propone una solución particular dentro de los límites originales de su problema. Pero si sus calificadores ya están manejando alrededor de 55 papeles cada uno, entonces, ¿es tan malo para ellos tener que mirar cinco o diez más para fines de calibración? Ya tiene una buena idea de las habilidades de los estudiantes, por lo que podría elegir una muestra de trabajos de todo el rango de grados. Luego, podría evaluar si necesita compensar la generosidad del evaluador en toda la prueba o en cada componente, y si debe hacerlo simplemente sumando / restando una constante o algo más sofisticado como la interpolación (por ejemplo, si le preocupa no linealidad cercana a 100). Pero una palabra de advertencia sobre la interpolación: supongamos que el Asesor Principal marca cinco muestras de documentos como 70, 75, 80, 85 y 90, mientras que un calificador los marca como 80, 88, 84, 93 y 96, por lo que hay cierto desacuerdo sobre el orden. Es probable que desee asignar calificaciones observadas de 96 a 100 en el intervalo de 90 a 100, y notas observadas de 93 a 96 en el intervalo de 85 a 90. Pero se requiere cierta reflexión para las marcas por debajo de eso. ¿Quizás las calificaciones observadas de 84 a 93 deberían asignarse al intervalo de 75 a 85? Una alternativa sería una regresión (posiblemente polinomial) para obtener una fórmula para el "grado verdadero predicho" a partir del "grado observado". ¿Quizás las calificaciones observadas de 84 a 93 deberían asignarse al intervalo de 75 a 85? Una alternativa sería una regresión (posiblemente polinomial) para obtener una fórmula para el "grado verdadero predicho" a partir del "grado observado". ¿Quizás las calificaciones observadas de 84 a 93 deberían asignarse al intervalo de 75 a 85? Una alternativa sería una regresión (posiblemente polinomial) para obtener una fórmula para el "grado verdadero predicho" a partir del "grado observado".
fuente
Un modelo muy simple:
Cada cohorte está sesgada por la fortaleza de sus estudiantes y la facilidad del calificador. Suponiendo que se trata de un efecto aditivo, lo retiramos de la siguiente manera: restaremos el puntaje promedio de la cohorte en la primera prueba y agregaremos el puntaje promedio de la cohorte en la segunda prueba.
La desventaja es que un estudiante individual podría ser penalizado si las personas de su grupo tienen mala suerte en la segunda prueba. Pero cualquier técnica estadística conllevará este inconveniente potencialmente injusto.
fuente
No puedes Al menos, no sin recopilar datos adicionales. Para ver por qué, lea los numerosos comentarios votados de @ whuber a lo largo de este hilo.
fuente
Editar
El problema resuelto en esta respuesta es el de encontrar calificadores que den menos puntos a los estudiantes que no les gustan.
Publicación original
Mi enfoque, que creo que es fácil de implementar, sería el siguiente:
1
Asume el modelo
2
3
Ahora una observación inusual es tal que la cantidad
Nota
Todosmi Se supone que son gaussianos. Las calificaciones no se distribuyen normalmente, por lo que las pautas sobre el tamaño deT Son difíciles de dar.
Código R
A continuación se muestra el código en R. Tenga en cuenta que, en su caso, se proporcionarán tanto mu como y, por lo que las filas generadoras cuando se les asignen números de formulario deben ignorarse. Los incluyo para poder evaluar el script sin datos.
fuente
Reformulando el problema: cuál es la mejor manera de abordar la calificación de un examen de dos partes con las condiciones que requieren que la segunda parte esté expuesta a una mayor incertidumbre debido al rango de evaluaciones cualitativas de los Marcadores Delegados.
Dónde: Master Tester = persona responsable para el examen Tester delegado = persona (1 de 11) asignada para marcar el par # 2 del examen Estudiante = el tipo que se divierte al presentar un examen
Las metas incluyen: A) Los estudiantes reciben una calificación que refleja su trabajo B) Manejan la incertidumbre de la segunda parte para alinearse con la intención del Master Tester
Enfoque sugerido (respuesta): 1. Master Tester selecciona aleatoriamente un conjunto representativo de muestras de exámenes, marca la parte 2 y desarrolla la correlación con la parte 1 2. Utilice la correlación para evaluar todos los datos de los Marcadores delegados (Parte 1 vs puntaje n. ° 2) 3. Cuando la correlación es significativamente diferente del Master Tester - importancia para ser aceptable para el Master Tester - examine el examen como el Master Tester para reasignar el resultado.
Este enfoque garantiza que el Master Tester sea responsable de la correlación y la importancia aceptable. La correlación podría ser tan simple como el puntaje de la parte n. ° 1 vs n. ° 2 o los puntajes relativos de las preguntas del examen n. ° 1 vs n. ° 2.
El Master Tester también podrá establecer una calidad de resultado para la Parte # 2 basada en la "elasticidad" de la correlación.
fuente