¿Cómo puedo usar estos datos para calibrar marcadores con diferentes niveles de generosidad en la calificación de los documentos de los estudiantes?

9

12 maestros están enseñando a 600 estudiantes. Las 12 cohortes impartidas por estos maestros varían en tamaño de 40 a 90 estudiantes, y esperamos diferencias sistemáticas entre las cohortes, ya que los estudiantes graduados fueron asignados desproporcionadamente a cohortes particulares, y la experiencia previa ha demostrado que los estudiantes graduados en promedio obtienen una puntuación considerablemente más alta que los estudiantes de pregrado.

Los maestros han calificado todos los documentos de su grupo y les han asignado una calificación de 100.

Cada maestro también examinó un artículo seleccionado al azar de otros tres maestros y le dio una calificación de 100. Cada maestro ha marcado tres de sus documentos con otro maestro. De este modo, se han marcado 36 documentos diferentes de esta manera, y yo llamo a esto mis datos de calibración.

También puedo ver cuántos estudiantes graduados había en cada cohorte.

Mis preguntas son:

A) ¿Cómo puedo usar estos datos de calibración para ajustar las marcas originales para hacerlas más justas? En particular, me gustaría eliminar tanto como sea posible los efectos de los fabricantes demasiado generosos / poco generosos.

B) ¿Qué tan apropiados son mis datos de calibración? No tuve elección en los 36 puntos de datos de calibración bastante limitados que obtuve en este curso, y no tengo ninguna opción para recopilar más durante el semestre actual. Sin embargo, si esta situación se repite, podría recopilar más datos de calibración o, de lo contrario, recopilar diferentes tipos de datos de calibración.

Esta pregunta es un pariente de una pregunta popular que hice en: ¿Cómo puedo lidiar mejor con los efectos de los marcadores con diferentes niveles de generosidad en la calificación de los documentos de los estudiantes? . Sin embargo, es un curso diferente y no estoy seguro de qué tan útil sería leer esa pregunta como antecedente para esta pregunta actual, ya que el principal problema era que no tenía datos de calibración.

teaching agreement-statistics user1205901 - Restablecer Monica
fuente

6

Esto suena como una gran oportunidad para usar un sistema de recomendación de factorización matricial . Brevemente, esto funciona de la siguiente manera:

Ponga sus observaciones en un parcialmente observada matriz , donde es el maestro puntuación di al estudiante . $M$ $M_{ij}$ $i$ $j$
Suponga que esta matriz es el producto externo de algunos vectores de características latentes, y , es decir, . $\vec t$ $\vec s$ $M_{ij} = t_i s_j$
Resuelva los vectores de características latentes que minimizan el error de reconstrucción al cuadrado (donde la suma se extiende sobre todas las celdas de observadas ). $\sum_{i,j} (t_is_j - M_{ij})^2$ $M$
Puede hacer este estilo de maximización de expectativas fijando una suposición para y resolviendo mediante mínimos cuadrados, luego arreglando esa suposición para y resolviendo para e iterando hasta la convergencia. $\vec t$ $\vec s$ $\vec s$ $\vec t$

Tenga en cuenta que esto supone una suposición bastante fuerte sobre la forma del sesgo de un maestro, en particular, si piensa en las características latentes de los estudiantes como su "puntaje verdadero", entonces el sesgo del maestro multiplica cada puntaje verdadero por una cantidad constante (para para que sea aditivo, expondrá las puntuaciones que inserte en la matriz y luego aprenda las exponenciales de las "puntuaciones verdaderas"). Con tan pocos datos de calibración, probablemente no pueda llegar muy lejos sin hacer una suposición sólida de este formulario, pero si tuviera más datos, podría agregar una segunda dimensión de características latentes, etc. (es decir, suponga que y nuevamente intenta minimizar el error de reconstrucción al cuadrado). $M_{ij} = \sum_{k=1}^n s_{ik} t_{kj}$

EDITAR: para tener un problema bien definido, necesita tener más operaciones matriciales que parámetros latentes (o puede usar algún tipo de regularización). Apenas tienes eso aquí (tienes 636 observaciones y 612 parámetros latentes), por lo que la factorización matricial puede no funcionar muy bien; no he trabajado con ellos en muestras tan pequeñas, así que realmente no lo sé.

Si la calibración resulta ser insuficiente para usar un buen modelo de recomendación, puede probar una regresión multinivel Score ~ IsGradStudent + <whatever other student covariates you have> + (1|Teacher)(ignorando los datos de calibración) para extraer estimaciones de un sesgo aditivo del maestro y luego verificar si este sesgo es consistente con los datos de calibración tomó. (Debería permitir la heterocedasticidad por parte del maestro si es posible). Esto es más ad-hoc pero puede ocasionar problemas de recopilación de datos menos graves.

Ben Kuhn
fuente

Para ampliar esto, probablemente comenzaría con un modelo simple con efectos fijos de maestro y errores estándar robustos potencialmente agrupados (vea esta publicación de blog para una discusión de esto en R) y luego compare los efectos fijos para cualquier valor atípico. En R, algo así lm(score ~ gradStudent + ... + teacherIDdebería hacerlo.

iacobus

2

Aquí hay un par de enfoques relacionados.

Tome el conjunto de documentos marcados por más de un maestro, ya que estos contienen la mayor cantidad de información sobre los efectos del maestro y fuera de esos documentos, los efectos del maestro y la cohorte se confunden (si hubiera alguna forma de llegar al efecto de cohorte, tal vez a través de GPA o algún otro predictor, por ejemplo, podría usar todos los datos, pero complicará bastante los modelos).

Rotula los estudiantes , y los marcadores . Deje que el conjunto de marcas sea . $i=1,2, ... n$ $j=1, 2, ...,m$ $y_{ij}, i=1,2, ... m$

Primero debe considerar su modelo para saber cómo se aplica el efecto marcador. ¿Es aditivo? ¿Es multiplicativo? ¿Necesita preocuparse por los efectos de límite (por ejemplo, sería mejor un efecto aditivo o multiplicativo en una escala de logit)?

Imagine dos marcadores dados en dos papeles e imagine que el segundo marcador es más generoso. Digamos que el primer marcador daría los papeles 30 y 60. ¿El segundo marcador tenderá a agregar un número constante de marcas (digamos 6 marcas) a ambos? ¿Tienden a agregar porcentajes constantes (digamos 10% a ambos, o 3 puntos versus 6 puntos)? ¿Qué pasa si el primer marcador dio 99? - ¿Qué pasaría entonces? ¿Qué hay de 0? ¿Qué pasaría si el segundo marcador fuera menos generoso? ¿Qué pasaría en 99 o 0? (es por eso que menciono un modelo logit; uno podría tratar las marcas como una proporción de las posibles marcas ( ), y luego el efecto marcador podría ser agregar una constante (digamos) al logit de - es decir, ). $p_{ij}=m_{ij}/100$ $p$ $\log(p_{ij}/(1-p_{ij})$

(No tendrá suficientes datos aquí para estimar la forma de generosidad, así como su tamaño. Debe elegir un modelo a partir de su comprensión de la situación. También deberá ignorar cualquier posibilidad de interacción; no tener los datos para ello)

Posibilidad 1 - modelo aditivo simple. Esto podría ser adecuado si ninguna marca estuviera realmente cerca de 0 o 100:

Considere un modelo como $E(y_{ij}) = \mu_{i}+\tau_j$

Esto es esencialmente un ANOVA de dos vías. Necesita restricciones sobre esto, por lo que puede configurar una codificación de desviación / configurar el modelo para que los efectos de marcador sean 0, o puede configurar un modelo donde un marcador sea la línea de base (cuyo efecto es 0 y cuyas marcas intentará ajustar cualquier otro marcador hacia).

Luego tome los valores y ajuste la población más amplia de marcas . $\hat{\tau}_j$ $y_{kj}^\text{adj}=y_{kj}-\hat{\tau}_j$

Posibilidad 2: en efecto, un tipo de idea similar pero . Aquí puede ajustar un modelo de mínimos cuadrados no lineales, o un GLM con un enlace de registro (probablemente me inclinaría hacia el segundo de esos dos). De nuevo, necesita una restricción en los s. $E(y_{ij}) = \mu_{i}\tau_j$ $\tau$

Entonces, un ajuste adecuado sería dividir por . $\hat{\tau_j}$

Posibilidad 3: aditivo en la escala logit. Esto podría ser más adecuado si algunas marcas se acercan a 0 o 100. Se verá más o menos multiplicativo para marcas muy pequeñas, aditivo para marcas medias y aproximadamente multiplicativo en para marcas muy altas. Puede usar una regresión beta o un GLM cuasi-binomial con enlace logit para adaptarse a este modelo. $1-p=(100-m)/100$

Glen_b -Reinstate a Monica
fuente

¿Cómo puedo usar estos datos para calibrar marcadores con diferentes niveles de generosidad en la calificación de los documentos de los estudiantes?

Respuestas: