¿Cómo puedo lidiar mejor con los efectos de los marcadores con diferentes niveles de generosidad en la calificación de los documentos de los estudiantes?

13

Alrededor de 600 estudiantes tienen un puntaje en una evaluación extensa, que se puede suponer que tiene buena fiabilidad / validez. La evaluación se califica entre 100 y es una prueba de opción múltiple marcada por computadora.

Esos 600 estudiantes también tienen puntajes en una segunda evaluación menor. En esta segunda parte de la evaluación, se separan en 11 cohortes con 11 calificadores diferentes, y existe un grado de variación indeseablemente grande entre los calificadores en términos de su 'generosidad' en el marcado, o la falta del mismo. Esta segunda evaluación también se califica de 100.

Los estudiantes no fueron asignados a cohortes al azar, y hay buenas razones para esperar diferencias en los niveles de habilidad entre cohortes.

Se me presenta la tarea de asegurar que las diferencias entre los marcadores de cohorte en la segunda asignación no aporten ventajas / desventajas materiales a estudiantes individuales.

Mi idea es lograr que las puntuaciones de la cohorte en la segunda evaluación sean coherentes con las puntuaciones de la cohorte en la primera, manteniendo las diferencias individuales dentro de las cohortes. Deberíamos asumir que tengo buenas razones para creer que el desempeño en las dos tareas estará altamente correlacionado, pero que los marcadores difieren considerablemente en su generosidad.

¿Es este el mejor enfoque? Si no, ¿qué es?

Sería muy apreciado si el respondedor pudiera dar algunos consejos prácticos sobre cómo implementar una buena solución, por ejemplo, en R o SPSS o Excel.

user1205901 - Restablecer Monica
fuente
3
Gran pregunta! ¿Se supone que las puntuaciones finales para la opción múltiple y las porciones de ensayo son comparables (es decir, los mismos rangos numéricos)?
gung - Restablece a Monica
2
Mientras escribía esta pregunta, ¡pensé que podría estar en tu callejón! Los puntajes finales son ampliamente comparables, pero un poco diferentes. La media en la sección de opción múltiple es ~ 70 con una SD alrededor de 15. La media en la otra sección es ~ 85 con una SD alrededor de 6.
user1205901 - Restablecer Monica
77
Sospecharía cualquier esfuerzo para resolver este problema basado solo en los datos que ha descrito, porque tendría que basarse en la suposición fuerte (e indetectable) de que no hay interacción entre la cohorte y el rendimiento en los dos instrumentos de prueba separados. Si es posible, considere la opción de realizar un pequeño experimento por separado para calibrar los calificadores.
whuber
99
Para ver mejor dónde radica el problema, suponga (hipotéticamente) que (1) las dos formas de evaluación son de opción múltiple y ensayo y (2) sus estudiantes mayores tienden a tener un desempeño relativamente mejor en las preguntas de ensayo. Cuando utilice sus datos para hacer que las puntuaciones sean "coherentes", confundirá los efectos de la calificación con los efectos de la edad y, al realizar ajustes, perjudicará sistemáticamente a los estudiantes mayores en comparación con los más jóvenes. No importa qué tan sofisticado sea el algoritmo que elija, solo puede ocultar este problema básico. Necesita algunos datos adicionales para resolver esta confusión.
whuber
3
Una cosa a tener en cuenta es qué tan cómodo estaría explicando el procedimiento de ajuste a los estudiantes u otras partes interesadas: muchos podrían sentir que dado un posible problema con el marcado, poner un esfuerzo en una calibración adecuada de los marcadores no sería demasiado esperar si El examen es importante.
Scortchi - Restablece a Monica

Respuestas:

8

Saber cómo difieren grado es buena, pero aún no le dice lo que para compensar los grados a . Para simplificar, imagine solo dos estudiantes de grado. Incluso si concluimos que el grado 1 es consistentemente 5 puntos más generosos que el grado 2, eso no le dice qué hacer con dos estudiantes que fueron calificados 70, uno por grado 1 y otro por grado 2. ¿Decimos que grado 2 fue un marcador áspero y aumentó ese 70 a 75, mientras que los 70 marcados por el grado 1 sin cambios? ¿O suponemos que el alumno de grado 1 fue excesivamente indulgente, redujo a su alumno a 65 puntos y mantuvo los 70 de grado 2 sin cambios? ¿Nos comprometemos a mitad de camino, extendiéndonos a su caso, en base a un promedio de los 11 grados? Lo que importa son las calificaciones absolutas, por lo que conocer la relativa generosidad no es suficiente.

Su conclusión puede depender de cuán "objetivo" sienta que debería ser la marca absoluta final. Un modelo mental sería proponer que cada estudiante tenga una calificación "correcta", la que otorgaría el Asesor Principal si tuviera tiempo de marcar cada trabajo individualmente, a la cual las calificaciones observadas son aproximaciones. En este modelo, las calificaciones observadas deben ser compensadas por su calificador, para acercarlas lo más posible a su calificación "verdadera" no observada. Otro modelo podría ser que todas las calificaciones son subjetivas, y buscamos transformar cada calificación observada hacia la calificación que predecimos que se habría otorgado si todos los estudiantes hubieran considerado el mismo trabajo y hubieran alcanzado algún tipo de compromiso o calificación promedio. El segundo modelo me parece menos convincente como solución, incluso si la admisión de subjetividad es más realista. En un entorno educativo, generalmente hay alguien que tiene la responsabilidad final de la evaluación, para garantizar que los estudiantes reciban "la calificación que se merecen", pero este papel principal esencialmente ha absuelto la responsabilidad a los mismos estudiantes que ya sabemos que están en desacuerdo. De aquí en adelante asumoes una calificación "correcta" que pretendemos estimar, pero esta es una propuesta discutible y puede no ajustarse a sus circunstancias.

Suponga que los estudiantes A, B, C y D, todos en la misma cohorte, "deberían" ser calificados como 75, 80, 85 y 90 respectivamente, pero su generoso calificador constantemente marca 5 puntos demasiado altos. Observamos 80, 85, 90 y 95 y debemos restar 5, pero encontrar la cifra para restar es problemático. No se puede hacer comparando los resultados entre cohortes, ya que esperamos que las cohortes varíen en la capacidad promedio. Una posibilidad es usar los resultados de las pruebas de opción múltiple para predecir los puntajes correctos en la segunda tarea, luego usar esto para evaluar la variación entre cada calificador y las calificaciones correctas. Pero hacer esta predicción no es trivial: si espera una media y una desviación estándar diferentes entre las dos evaluaciones, no puede simplemente asumir que las calificaciones de la segunda evaluación deberían coincidir con la primera.

Además, los estudiantes difieren en aptitud relativa en evaluaciones de opción múltiple y evaluaciones escritas. Podría tratarse como un tipo de efecto aleatorio, formando un componente de las calificaciones "observadas" y "verdaderas" del estudiante, pero no capturadas por su calificación "predicha". Si las cohortes difieren sistemáticamente y los estudiantes en una cohorte tienden a ser similares, entonces no deberíamos esperar que este efecto promedie a cero dentro de cada cohorte. Si las calificaciones observadas de una cohorte promedian +5 en comparación con las predichas, es imposiblepara determinar si esto se debe a un calificador generoso, una cohorte particularmente más adecuada para la evaluación escrita que la opción múltiple, o alguna combinación de los dos. En un caso extremo, la cohorte incluso puede tener una aptitud más baja en la segunda evaluación, pero un calificador muy generoso lo compensó con creces, o viceversa. No puedes romper esto aparte. Está confundido

También dudo de la idoneidad de un modelo aditivo tan simple para sus datos. Los calificadores pueden diferir del Asesor Principal no solo por el cambio de ubicación, sino también por la propagación, aunque dado que las cohortes probablemente varían en homogeneidad, no puede simplemente verificar la propagación de las calificaciones observadas en cada cohorte para detectar esto. Además, la mayor parte de la distribución tiene puntajes altos, bastante cerca del máximo teórico de 100. Anticiparía esta introducción de no linealidad debido a la compresión cerca del máximo: un calificador muy generoso puede otorgar marcas A, B, C y D como 85, 90, 94, 97. Esto es más difícil de revertir que simplemente restar una constante. Peor aún, es posible que vea "recorte": un calificador extremadamente generoso puede calificarlos como 90, 95, 100, 100. Esto es imposiblerevertir, y la información sobre el rendimiento relativo de C y D se pierde irrecuperablemente.

Sus calificadores se comportan de manera muy diferente. ¿Está seguro de que difieren solo en su generosidad general, en lugar de en su generosidad en varios componentes de la evaluación? Puede valer la pena verificar esto, ya que podría introducir varias complicaciones, por ejemplo, la calificación observada para B puede ser peor que la de A, a pesar de que B sea 5 puntos "mejor", incluso si las calificaciones asignadas por el calificador para cada componente son una función monotónicamente creciente del asesor principal! Suponga que la evaluación se divide entre Q1 (A debería obtener una puntuación de 30/50, B 45/50) y Q2 (A debería obtener una puntuación de 45/50, B 35/50). Imagine que el calificador es muy indulgente con Q1 (calificaciones observadas: A 40/50, B 50/50) pero duro con Q2 (observado: A 42/50, 30/50), luego observamos un total de 82 para A y 80 para B. Si tiene que considerar las puntuaciones de los componentes,

Podría decirse que este es un comentario extendido en lugar de una respuesta, en el sentido de que no propone una solución particular dentro de los límites originales de su problema. Pero si sus calificadores ya están manejando alrededor de 55 papeles cada uno, entonces, ¿es tan malo para ellos tener que mirar cinco o diez más para fines de calibración? Ya tiene una buena idea de las habilidades de los estudiantes, por lo que podría elegir una muestra de trabajos de todo el rango de grados. Luego, podría evaluar si necesita compensar la generosidad del evaluador en toda la prueba o en cada componente, y si debe hacerlo simplemente sumando / restando una constante o algo más sofisticado como la interpolación (por ejemplo, si le preocupa no linealidad cercana a 100). Pero una palabra de advertencia sobre la interpolación: supongamos que el Asesor Principal marca cinco muestras de documentos como 70, 75, 80, 85 y 90, mientras que un calificador los marca como 80, 88, 84, 93 y 96, por lo que hay cierto desacuerdo sobre el orden. Es probable que desee asignar calificaciones observadas de 96 a 100 en el intervalo de 90 a 100, y notas observadas de 93 a 96 en el intervalo de 85 a 90. Pero se requiere cierta reflexión para las marcas por debajo de eso. ¿Quizás las calificaciones observadas de 84 a 93 deberían asignarse al intervalo de 75 a 85? Una alternativa sería una regresión (posiblemente polinomial) para obtener una fórmula para el "grado verdadero predicho" a partir del "grado observado". ¿Quizás las calificaciones observadas de 84 a 93 deberían asignarse al intervalo de 75 a 85? Una alternativa sería una regresión (posiblemente polinomial) para obtener una fórmula para el "grado verdadero predicho" a partir del "grado observado". ¿Quizás las calificaciones observadas de 84 a 93 deberían asignarse al intervalo de 75 a 85? Una alternativa sería una regresión (posiblemente polinomial) para obtener una fórmula para el "grado verdadero predicho" a partir del "grado observado".

Lepisma
fuente
1
Desafortunadamente, la naturaleza de la evaluación 2 hace que sea imposible para los evaluadores mirar más para propósitos de calibración. Puedes considerarlo como una recitación de poesía oral que se realizó una vez sin grabación y que se evaluó inmediatamente después. No sería práctico programar nuevas recitaciones únicamente con fines de calibración. Para responder a su otra pregunta, la Evaluación 2 realmente no tenía subcomponentes claros, y no necesitamos considerar los puntajes de los componentes.
user1205901 - Restablecer Monica
1
Esto "no es una respuesta", pero en un mundo ideal, habría sugerido cambiar las cosas y usar una muestra de ejemplo (posiblemente de tareas artificiales diseñadas deliberadamente para estar en el límite de grado, en lugar de estudiantes reales) como una forma de entrenamiento que los calificadores tengan la misma generosidad, en lugar de deducir y compensar sus generosidades. Sin embargo, si se realizan las evaluaciones, esta claramente no es una solución para usted.
Silverfish
1
(+1) Muy completo "no es una respuesta". La consistencia en las pruebas bastante subjetivas a menudo se puede mejorar al dividir la tarea de calificación en componentes; de lo contrario, un calificador podría estar dando más peso al ritmo, otro a la proyección, etc.
Scortchi - Restablece a Monica
Está claro que, además de presentar un posible ajuste a la persona que finalmente decidirá el problema, también tendré que presentar una explicación de los pros y los contras del ajuste. Su respuesta proporciona una gran cantidad de material útil al respecto. Sin embargo, me pregunto qué criterios puedo usar para juzgar si es más beneficioso dejar todo solo o hacer un cambio. Miro las calificaciones de la cohorte y mi intuición dice que las diferencias entre los marcadores están teniendo un gran impacto. La intuición no es confiable, pero no estoy seguro de qué más puedo seguir en este caso.
user1205901 - Restablece a Monica el
2
Una pregunta es si tiene fundamentos razonables para creer que el efecto de "aptitud de tarea diferencial" es pequeño, particularmente cuando se promedia sobre una cohorte, en comparación con el efecto de "generosidad gradual". Si es así, puede intentar estimar el efecto de generosidad para cada cohorte, pero corre el riesgo de ser confundido. Además, hay una captura 22. Sería muy cauteloso de aplicar grandes "correcciones" a las calificaciones observadas. Pero si las correcciones sugeridas son pequeñas, es plausible que se deban a diferencias sistemáticas en la capacidad de tarea diferencial entre las cohortes, y no a la generosidad de los graduados.
Silverfish
2

Un modelo muy simple:

s1,yoyos2,yoUN1,...,UNpag

Cada cohorte está sesgada por la fortaleza de sus estudiantes y la facilidad del calificador. Suponiendo que se trata de un efecto aditivo, lo retiramos de la siguiente manera: restaremos el puntaje promedio de la cohorte en la primera prueba y agregaremos el puntaje promedio de la cohorte en la segunda prueba.

s1

jpag,yoUNj,s1,yo=s1,yo-1El |UNjEl |yoUNj(s1,yo-s2,yo)

s

yo,syo=αs1,yo+(1-α)s2,yo

La desventaja es que un estudiante individual podría ser penalizado si las personas de su grupo tienen mala suerte en la segunda prueba. Pero cualquier técnica estadística conllevará este inconveniente potencialmente injusto.

Arthur B.
fuente
3
α
1
No, las cohortes no se seleccionan al azar.
Scortchi - Restablece a Monica
1
... que, como dice @whuber, se confunde con cualquier tendencia inherente de la cohorte (debido a la edad o lo que sea) a tener un rendimiento relativamente mejor en un tipo de prueba que en otro.
Scortchi - Restablece a Monica
2
¡No puedes eliminar la confusión tomando cohortes más grandes! En el mejor de los casos, puede obtener estimaciones cada vez más precisas de valores no interpretables.
whuber
3
Razonable, tal vez: pero no es comprobable dada la información disponible para el OP. La validez de su respuesta se basa en la verdad de esta suposición implícita. Peor aún, su negación (que por supuesto también es inestable) también es sumamente razonable: dado que las cohortes son autoseleccionadas, pueden estar formadas por personas que se desempeñan de manera común en diferentes instrumentos de evaluación, lo que sugiere que en realidad es probable que el éxito sea diferente se deberá en parte a la cohorte y solo en parte debido a la variabilidad entre los calificadores.
whuber
1

No puedes Al menos, no sin recopilar datos adicionales. Para ver por qué, lea los numerosos comentarios votados de @ whuber a lo largo de este hilo.

Jake Westfall
fuente
0

Editar

El problema resuelto en esta respuesta es el de encontrar calificadores que den menos puntos a los estudiantes que no les gustan.

Publicación original

Mi enfoque, que creo que es fácil de implementar, sería el siguiente:

μk,yokyoyk,yo denota el grado para la segunda asignación.

1

Asume el modelo

yk,yo=μk,yo+α+τmik,yoααyoα sea ​​cero, pero los estudiantes pueden cambiar su rendimiento para el examen final dando un aumento / disminución general.

2

solyoyoy~k,yo

yk,yo-μk,yo-α=y~k,yo=solyo+σyomi~k,yo

solσ

3

Ahora una observación inusual es tal que la cantidad

T=El |y~-solyoσyoEl |es largo. Seleccione la mayor de estas cantidades para cada cohorte e investíguelas.

Nota

Todos miSe supone que son gaussianos. Las calificaciones no se distribuyen normalmente, por lo que las pautas sobre el tamaño deT Son difíciles de dar.

Código R

A continuación se muestra el código en R. Tenga en cuenta que, en su caso, se proporcionarán tanto mu como y, por lo que las filas generadoras cuando se les asignen números de formulario deben ignorarse. Los incluyo para poder evaluar el script sin datos.

mu_0 <- 50; 
alpha <- 5;
tau<- 10; 
# 0 Generate data for first assignment
mu <- matrix(rnorm(605, mu_0, tau), 11) 

# 1 Generate data for second assignment and estimate alpha
G <- rnorm(11, 0)*10;
for(i in 1:11){
    y[i,] <- rnorm(55, 0, sigma) + mu[i,] + alpha + G[i];
}

alpha_hat <- mean(y-mu)
alpha_hat

# 2 Form \tilde{y} and find unsual observations
ytilde <- y - mu - alpha_hat
T <- matrix(0, 11, 55);
for(i in 1:11){
    G_hat <- mean(ytilde[i,]);
    sigma_hat <- sd(ytilde[i,]);
    T[i,] <- order(abs(ytilde[i,] - G_hat)/sigma_hat)
}
# 3 Look at grader number 2 by
T[2,]
Hunaphu
fuente
44
No parece haber respondido la pregunta: solo termina con una recomendación para investigar cualquier "observación inusual". ¿Cómo resuelve eso el problema?
whuber
Al leer la pregunta nuevamente, tal vez me concentré demasiado en la parte "individual". El problema resuelto en esta respuesta es más bien el de encontrar calificadores que den menos puntos a los estudiantes que no les gustan. La pregunta original es imposible (!) De resolver. Como ya se sugirió, es muy probable que los estudiantes colaboren o se correlacionen fuertemente dentro de cada cohorte.
Hunaphu
0

Reformulando el problema: cuál es la mejor manera de abordar la calificación de un examen de dos partes con las condiciones que requieren que la segunda parte esté expuesta a una mayor incertidumbre debido al rango de evaluaciones cualitativas de los Marcadores Delegados.

Dónde: Master Tester = persona responsable para el examen Tester delegado = persona (1 de 11) asignada para marcar el par # 2 del examen Estudiante = el tipo que se divierte al presentar un examen

Las metas incluyen: A) Los estudiantes reciben una calificación que refleja su trabajo B) Manejan la incertidumbre de la segunda parte para alinearse con la intención del Master Tester

Enfoque sugerido (respuesta): 1. Master Tester selecciona aleatoriamente un conjunto representativo de muestras de exámenes, marca la parte 2 y desarrolla la correlación con la parte 1 2. Utilice la correlación para evaluar todos los datos de los Marcadores delegados (Parte 1 vs puntaje n. ° 2) 3. Cuando la correlación es significativamente diferente del Master Tester - importancia para ser aceptable para el Master Tester - examine el examen como el Master Tester para reasignar el resultado.

Este enfoque garantiza que el Master Tester sea responsable de la correlación y la importancia aceptable. La correlación podría ser tan simple como el puntaje de la parte n. ° 1 vs n. ° 2 o los puntajes relativos de las preguntas del examen n. ° 1 vs n. ° 2.

El Master Tester también podrá establecer una calidad de resultado para la Parte # 2 basada en la "elasticidad" de la correlación.

MarkR
fuente