¿Cómo se ven afectados los resultados de la fórmula de profecía de Spearman-Brown al tener preguntas de prueba de diferentes dificultades o evaluadores que son calificadores fáciles o difíciles? Un texto respetado dice que la SB está afectada, pero no da detalles. (Consulte la cita a continuación).
Guion, R. M (2011). Evaluación, medición y predicción para decisiones de personal, 2a edición. 477
"La confiabilidad se puede aumentar al agrupar a los evaluadores, utilizando la ecuación de Spearman-Brown ... Si la confiabilidad de una calificación única es .50, entonces la confiabilidad de dos, cuatro o seis clasificaciones paralelas será aproximadamente .67, .80 y .86, respectivamente "(Houston, Raymond y Svec, 1991, p. 409). Me gusta esta cita porque la palabra reconoce aproximadamente que las estimaciones estadísticas son declaraciones "en promedio" de lo que podría esperarse si todo sale como se supone. Más allá de eso, la palabra operativa es paralela. Promediar calificaciones (o usar Spearman-Brown) si un evaluador es, por ejemplo, sistemáticamente indulgente, simplemente no se ajusta a la suposición. Si los ensayos son calificados por dos evaluadores, uno más indulgente que el otro, el problema es como el de usar dos pruebas de opción múltiple de dificultad desigual (formas no paralelas). Los puntajes basados en diferentes formas de prueba (sin igual) no son comparables. Lo mismo ocurre con la mezcla de calificadores indulgentes y difíciles; La confiabilidad de las calificaciones agrupadas se estima incorrectamente por la ecuación de Spearman-Brown de la teoría de prueba clásica. Las cosas son peores si cada juez define un constructo un poco diferente ".
fuente
Respuestas:
Aunque me siento un poco tímido al contradecir tanto un "texto respetado" como otro usuario de CV, me parece que la fórmula de Spearman-Brown no se ve afectada por tener elementos de diferente dificultad. Sin duda, la fórmula de Spearman-Brown generalmente se deriva bajo el supuesto de que tenemos elementos paralelos , lo que implica (entre otras cosas) que los elementos tienen la misma dificultad. Pero resulta que esta suposición no es necesaria; se puede relajar para permitir dificultades desiguales, y la fórmula Spearman-Brown aún se mantendrá. Demuestro esto a continuación.
Recuerde que en la teoría de prueba clásica, se supone que una medida es la suma de un componente de "puntaje verdadero" y un componente de error , es decir, con y correlación. La suposición de los ítems paralelos es que todos los ítems tienen los mismos puntajes verdaderos, que difieren solo en sus componentes de error, aunque se supone que tienen la misma varianza. En símbolos, para cualquier par de elementos y ,X T E
Ahora para derivar la fiabilidad de una forma de prueba de dichos elementos. Considere una prueba que consta de elementos esencialmente paralelos, cuya suma da el puntaje de la prueba. La fiabilidad es, por definición, la relación entre la varianza de puntaje real y la varianza de puntaje observada. Para la fiabilidad de los elementos individuales, de la definición de paralelismo esencial se deduce que tienen la misma fiabilidad, que denotamos con , con es la varianza de puntuación verdadera y la varianza de error. Para la confiabilidad del puntaje total de la prueba, primero examinamos la varianza del puntaje total de la prueba, que esk ρ=σ2T/(σ2T+σ2E) σ2T σ2E Tσ 2 T σ 2 E k 2 σ 2 T
@JeremyMiles plantea algunos puntos interesantes e importantes sobre lo que puede suceder cuando aumentamos la duración de la prueba "en el mundo real", pero al menos de acuerdo con los supuestos idealizados de la teoría de prueba clásica, las variaciones en la dificultad del ítem no importan para la confiabilidad de un forma de prueba (en marcado contraste con los supuestos de la teoría moderna de respuesta al ítem). Esta misma línea básica de razonamiento también es la razón por la que generalmente hablamos de equivalencia tau esencial en lugar de equivalencia tau, porque la mayoría de los resultados importantes son válidos para el caso más indulgente donde las dificultades del ítem (es decir, los medios) pueden diferir.
fuente
No es fácil decirlo.
Primero, Spearman-Brown asume que los ítems de prueba (o evaluadores) son muestreados aleatoriamente de una población de ítems de prueba (o evaluadores). Esto nunca es realmente cierto, particularmente en las pruebas, porque inventar más elementos es difícil, y es probable que use los mejores elementos para comenzar, entonces encontrará que la prueba debe ser más larga, por lo que 'raspar el barril' para artículos.
En segundo lugar, los ítems varían en su confiabilidad, y la confiabilidad no está necesariamente relacionada con la dificultad (si ayuda, piense en la pendiente e intercepción de la curva característica del ítem en la teoría de respuesta al ítem). Sin embargo, el cálculo de la confiabilidad (digamos, el alfa de Cronbach, que es una forma de correlación intraclase) supone que las confiabilidades son todas iguales (asumen un modelo de medición esencial equivalente a tau, es decir, que las confiabilidades no estandarizadas de cada ítem son todas igual). Eso es casi seguro que está mal. Agregar elementos podría subir, bajar. Depende de los artículos.
Aquí hay otra forma de pensarlo. Selecciono al azar una muestra de una población y calculo la media y el error estándar de la media. Esa media será un estimador imparcial de la media de la población. Luego, aumento el tamaño de mi muestra: el valor esperado de la media es el mismo, pero es poco probable que sea el mismo, casi con toda seguridad subirá o bajará. Tal como espero que el error estándar se haga más pequeño, pero la cantidad que se reduce no será consistente (y no es imposible que el error estándar sea mayor).
fuente