Detectar patrones de trampa en un examen de preguntas múltiples

25

PREGUNTA:

Tengo datos binarios en las preguntas del examen (correcto / incorrecto). Algunas personas podrían haber tenido acceso previo a un subconjunto de preguntas y sus respuestas correctas. No sé quién, cuántos o cuáles. Si no hubiera trampa, suponga que modelaría la probabilidad de una respuesta correcta para el ítem yo como , donde representa la dificultad de la pregunta es la capacidad latente del individuo. Este es un modelo de respuesta de ítem muy simple que se puede estimar con funciones como ltm's rasch () en R. Además de las estimaciones (donde indexa individuos) de la variable latente, tengo acceso a estimaciones separadasβ i z z j j q jlosolyot((pagsyo=1El |z))=βyo+zβyozz^jjq^j de la misma variable latente que se derivaron de otro conjunto de datos en el que no era posible hacer trampa.

El objetivo es identificar a las personas que probablemente hicieron trampa y los artículos que engañaron. ¿Cuáles son algunos enfoques que podría tomar? Además de los datos sin procesar, , y están disponibles, aunque los dos primeros tendrán algún sesgo debido a trampas. Idealmente, la solución vendría en forma de agrupación / clasificación probabilística, aunque esto no es necesario. Las ideas prácticas son muy bienvenidas, al igual que los enfoques formales. z j q jβ^yoz^jq^j

Hasta ahora, he comparado la correlación de puntajes de preguntas para pares de individuos con puntajes más altos vs. más bajos (donde es un índice aproximado de la probabilidad de que hicieron trampa). Por ejemplo, clasifiqué a los individuos por y luego tracé la correlación de pares sucesivos de puntajes de preguntas de los individuos. También intenté trazar la correlación media de puntajes para individuos cuyos valores eran mayores que el cuantil de , en función de . No hay patrones obvios para ninguno de los enfoques. q j - z j q j - z j q j - z jnth q j - z jnq^j-z^jq^j-z^jq^j-z^jq^j-z^jnortethq^j-z^jnorte


ACTUALIZAR:

Terminé combinando ideas de @SheldonCooper y el útil documento de Freakonomics que @whuber me señaló. Otras ideas / comentarios / críticas son bienvenidas.

Deje que sea ​​el puntaje binario de la persona en la pregunta . Estime el modelo de respuesta del elemento donde es el parámetro de facilidad del elemento y es una variable de habilidad latente. (Se puede sustituir un modelo más complicado; I estoy usando un 2PL en mi aplicación). Como mencioné en mi publicación original, tengo estimaciones de la variable de habilidad de un conjunto de datos separado (diferentes elementos, mismas personas) en qué trampa no fue posible. Específicamente, son estimaciones empíricas de Bayes del mismo modelo de respuesta al artículo anterior. j i l o g i t ( P r ( X i j = 1 | z j ) = β i + z j , β i z j ^ q j { y i j } ^ q jXyojjyo

losolyot(PAGSr(Xyoj=1El |zj)=βyo+zj,
βyozjqj^{yyoj}qj^

La probabilidad de la puntuación observada , condicional a la facilidad del elemento y la capacidad de la persona, se puede escribir donde es la probabilidad predicha de una respuesta correcta, e es el logit inverso. Entonces, condicional a las características del elemento y la persona, la probabilidad conjunta de que la persona tenga las observaciones es y de manera similar, la probabilidad conjunta de que el elemento tenga las observaciones p i j = P r ( X i j = x i j | ^ β i , ^ q j ) = P i j ( ^ β i , ^ q j ) x i j ( 1 - P i j ( ^ β i , ^ q j ) ) 1 - xXyoj

pagsyoj=PAGSr(Xyoj=XyojEl |βyo^,qj^)=PAGSyoj(βyo^,qj^)Xyoj(1-PAGSyoj(βyo^,qj^))1-Xyoj,
PAGSyoj(βyo^,qj^)=yolosolyot(βyo^+qj^)yolosolyotjXj
pagsj=yopagsyoj,
yoXyo esLas personas con los valores más bajos son aquellas cuyos puntajes observados son condicionalmente menos probables: posiblemente son tramposos. Los elementos con los valores más bajos son aquellos que son condicionalmente menos probables: son los posibles elementos filtrados / compartidos. Este enfoque se basa en los supuestos de que los modelos son correctos y que las puntuaciones de la persona no están condicionadas a las características de la persona y el elemento. Sin embargo, una violación de la segunda suposición no es problemática, siempre que el grado de correlación no varíe entre las personas, y el modelo para podría mejorarse fácilmente (por ejemplo, agregando características adicionales de persona o elemento).
pagsyo=jpagsyoj.
pagsjpagsjjpagsyoj

Un paso adicional que intenté es tomar r% de las personas menos probables (es decir, personas con el r% más bajo de valores de p_j ordenados), calcular la distancia media entre sus puntajes observados x_j (que debería correlacionarse con personas con r baja, que son posibles tramposos), y graficarlo para r = 0.001, 0.002, ..., 1.000. La distancia media aumenta para r = 0.001 a r = 0.025, alcanza un máximo y luego disminuye lentamente a un mínimo en r = 1. No es exactamente lo que esperaba.

bloqueado
fuente
44
Este es un problema difícil porque tiene muy poca información sobre la naturaleza del engaño. ¿Cómo diferenciar a un tramposo de un estudiante que estudió mucho más? Sin más información, no puedes. Una posibilidad es si los estudiantes pueden hacer trampa copiando entre sí, o si los subconjuntos de estudiantes tuvieron acceso a las mismas respuestas. Si este es el caso, podría crear una función de distancia entre estudiantes (menor distancia significa que les fue bien en las mismas preguntas) y buscar patrones aquí. Esto sería más concluyente de la OMI.
rm999
2
Levitt y Dubner describen su enfoque en Freakonomics ( freakonomicsmedia.com ).
whuber
@ rm999 Para aclarar, los tramposos tuvieron acceso al mismo subconjunto de preguntas (por ejemplo, se filtró una clave de respuesta parcial antes de la administración del examen). No estoy interesado en hacer trampa que podría haber sucedido al copiar. Revisaré mi pregunta durante el fin de semana si esto no está claro.
cerrado el
@whuber Gracias, buscaré el documento (suponiendo que esté publicado). Escuché el audiolibro, pero no puedo recordar los detalles de cómo identificaron a los tramposos (creo que eran maestros que estaban falsificando las respuestas de los estudiantes).
cerrado el
Si recuerdo el caso de Freakonomics, se trataba de detectar niños en la misma escuela / clase que tenían (a) grandes saltos en el logro en comparación con el año anterior, (b) diferentes respuestas para las preguntas más fáciles anteriores y (c) secuencias idénticas de respuestas para preguntas posteriores más difíciles, por lo que sugiere que un maestro complete las respuestas que los niños dejaron en blanco.
Henry

Respuestas:

4

Enfoque ad hoc

βyoyojβyo+qjqjes solo un desplazamiento constante) y el umbral en algún lugar razonable (por ejemplo, p (correcto) <0.6). Esto proporciona un conjunto de preguntas que es poco probable que el alumno responda correctamente. Ahora puede usar la prueba de hipótesis para ver si esto se viola, en cuyo caso el estudiante probablemente hizo trampa (suponiendo, por supuesto, que su modelo sea correcto). Una advertencia es que si hay pocas preguntas de este tipo, es posible que no tenga suficientes datos para que la prueba sea confiable. Además, no creo que sea posible determinar qué pregunta hizo trampa, porque siempre tiene un 50% de posibilidades de adivinar. Pero si asume además que muchos estudiantes tuvieron acceso (y engañaron) al mismo conjunto de preguntas, puede compararlas entre los estudiantes y ver qué preguntas se respondieron con más frecuencia que oportunidad.

qjβyo

Enfoque basado en principios

dojlyounayojjyodoj=1lyo=1unayojlosolyot(βyo+qj)unayojdojlyo

Sheldon Cooper
fuente
Leí la primera parte de su respuesta y creo que es prometedor. Dos notas rápidas: esta fue una opción múltiple, por lo que las probabilidades de adivinar correctamente son del 25% o 20%. Tiene razón en que podemos suponer que se filtró un subconjunto de preguntas antes del examen. Volveremos a esto el domingo o el lunes.
cerrado el
3

Si desea entrar en algunos enfoques más complejos, puede mirar los modelos de teoría de respuesta al ítem. Luego podría modelar la dificultad de cada pregunta. Creo que los estudiantes que obtuvieron los elementos difíciles correctos y se perdieron los más fáciles tendrían más probabilidades de hacer trampa que los que hicieron lo contrario.

Ha pasado más de una década desde que hice este tipo de cosas, pero creo que podría ser prometedor. Para más detalles, consulte los libros de psicometría.

Peter Flom - Restablece a Monica
fuente
Por lo general, las trampas o adivinanzas pueden incorporarse directamente en un IRM. Esto es, en esencia, lo que pretende hacer un modelo 3-PL, ya que incluye un parámetro de dificultad , discriminación y adivinanzas que actúa como una asíntota más baja para la probabilidad de endosar un elemento. Sin embargo, se ha demostrado que no es realista en la mayoría de las situaciones, y se han desarrollado otras estadísticas específicas de ajuste de la persona (ya sea en pruebas educativas o evaluación psicológica). Meijer, Person-Fit research: una introducción. APM (1996), 9: 3-8 tiene una buena revisión sobre patrones de respuesta aberrantes.
chl
@chl ¡Gracias! Estudié estas cosas en la escuela de posgrado, pero eso fue hace mucho tiempo: mi última clase fue en 1996 más o menos.
Peter Flom - Restablece a Monica
@chl Gracias por tus sugerencias. El modelo en mi pregunta es, de hecho, un modelo de respuesta al ítem (un modelo Rasch o 1PL con un parámetro de discriminación fijo). Creo que la sugerencia de mirar a las personas con un rendimiento aberrante es un buen comienzo, pero estoy buscando un enfoque que aproveche la información adicional proporcionada por la correlación en las respuestas de los tramposos para los elementos en los que hubo trampa. Puede imaginar que si utilizamos su procedimiento para identificar a los tramposos, por ejemplo, funcionarían bien en artículos difíciles similares.
cerrado el