¿Existe alguna razón estadística por la cual la teoría de análisis / respuesta de ítems no se aplique más ampliamente? Por ejemplo, si un maestro realiza una prueba de opción múltiple de 25 preguntas y encuentra que 10 preguntas fueron respondidas correctamente por todos, 10 preguntas fueron respondidas por una fracción realmente baja (digamos 10%) y las 5 restantes fueron respondidas por aproximadamente el 50% de las personas . ¿No tiene sentido volver a pesar los puntajes para que las preguntas difíciles tengan más peso?
Y, sin embargo, en el mundo real, las pruebas casi siempre tienen todas las preguntas ponderadas por igual. ¿Por qué?
El siguiente enlace analiza los índices de discriminación y otras medidas de dificultad para elegir qué preguntas son las mejores: http://fcit.usf.edu/assessment/selected/responsec.html
Sin embargo, parece que el método para calcular el índice de discriminación de las preguntas solo se usa de manera prospectiva (por ejemplo, si una pregunta no discrimina bien, tírela). ¿Por qué no se vuelven a evaluar las pruebas para la población actual?
fuente
Un primer argumento tiene que ver con la transparencia. @ rolando2 ya ha hecho este punto. Los estudiantes quieren saber ex ante cuánto vale cada artículo.
Un segundo argumento es que los pesos no solo reflejan el grado de dificultad de una pregunta, sino también el grado de importancia que el instructor atribuye a una pregunta. De hecho, el objetivo de un examen es probar y certificar conocimientos y competencias. Como tal, los pesos atribuidos a diferentes preguntas y elementos deben ser establecidos previamente por el maestro. No debe olvidar que "todos los modelos están equivocados y solo algunos son útiles". En este caso, uno puede tener algunas dudas sobre la utilidad.
Dicho esto, creo que el análisis estadístico (más o menos elegante) podría venir a posteriori, para el análisis de los resultados. Allí puede arrojar algunas ideas interesantes. Ahora, si esto se hace y hasta qué punto se hace, depende ciertamente de las habilidades estadísticas del maestro.
fuente
Quería hacer una aclaración sobre la pregunta original. En la teoría de respuesta al ítem, la discriminación (es decir, la pendiente del ítem o la carga del factor) no es indicativa de dificultad. Usar un modelo que permita una discriminación variable para cada ítem es ponderarlos efectivamente de acuerdo con su correlación estimada con la variable latente, no por su dificultad.
En otras palabras, un ítem más difícil podría ser ponderado si se estima que no está correlacionado con la dimensión de interés y viceversa, un ítem más fácil podría ser ponderado si se estima que está altamente correlacionado.
Estoy de acuerdo con las respuestas anteriores que apuntan a (a) la falta de conocimiento de los métodos de respuesta al ítem entre los profesionales, (b) el hecho de que el uso de estos modelos requiere cierta experiencia técnica, incluso si uno es consciente de sus ventajas (especialmente la capacidad de evaluar el ajuste del modelo de medición), (c) las expectativas del estudiante según lo indicado por @ rolando2, y por último pero no menos importante (d) las consideraciones teóricas que los instructores pueden tener para ponderar diferentes elementos de manera diferente. Sin embargo, quería mencionar que:
No todos los modelos de teoría de respuesta a ítems permiten la variación del parámetro de discriminación, donde el modelo Rasch es probablemente el mejor ejemplo conocido de un modelo donde las discriminaciones entre ítems se mantienen constantes. Bajo la familia de modelos Rasch, el puntaje de suma es una estadística suficiente para el puntaje de respuesta al ítem, por lo tanto, no habrá diferencia en el orden de los encuestados, y las únicas diferencias prácticas serán apreciadas si las 'distancias' entre el puntaje Se consideran grupos.
Hay investigadores que defienden el uso de la teoría de prueba clásica (que se basa en el uso tradicional de puntajes de suma o promedio correcto) por razones teóricas y empíricas. Quizás el argumento más utilizado es el hecho de que los puntajes generados bajo la teoría de respuesta al ítem son efectivamente muy similares a los producidos bajo la teoría de prueba clásica. Véase, por ejemplo, el trabajo de Xu & Stone (2011), Uso de estimaciones de rasgos IRT versus puntajes sumados en predicción de resultados , medición educativa y psicológica , donde informan correlaciones superiores a .97 en una amplia gama de condiciones.
fuente
¿No debería basarse el puntaje de un estudiante en lo que sabe y responde en el examen en lugar de lo que hacen todos los demás en la clase?
Si dio el mismo examen 2 años diferentes y tuvo 2 estudiantes (1 en cada uno) que respondieron exactamente las mismas preguntas correctamente (sin hacer trampa), ¿tiene sentido que recibieran diferentes calificaciones en función de la cantidad de otros estudiantes en su clase estudiada?
Y personalmente, no quiero motivar a ningún alumno para sabotear a sus compañeros de clase en lugar de aprender el material ellos mismos.
IRT puede dar una idea de la prueba, pero no la usaría para ponderar activamente los puntajes.
Cuando pienso en pesas, creo que alguien debería obtener más puntos por responder correctamente una pregunta difícil, pero debería perder más puntos por responder mal una pregunta fácil. Combina esos y aún terminas con la misma ponderación. O, en realidad, trato de sopesar según el tiempo o el esfuerzo necesarios para responder la pregunta, de modo que alguien que responda las preguntas en un orden diferente no tenga ventaja en una prueba cronometrada.
fuente