Tengo 400 respuestas a un cuestionario de 20 ítems que pretende medir un comportamiento actitudinal en estudiantes de medicina. El instrumento fue validado en los EE. UU. Para un solo año de estudiantes de medicina y los datos publicados son muy "limpios": todos los valores ritc> 0.3, alfa 0.84, PCA con una estructura estable de cuatro factores, etc. En mi muestra he encontrado 5 de 20 elementos para tener ritc <0.2 y en una subpoblación cultural (n = 70) estos valores ritc son cero / negativos. Si retengo todos los ítems, aquellos con ritc pobre no cargan en ningún factor o se clasifican en un factor de 2 elementos juntos (factor 4). Hipotetizo que (y me gustaría investigar) esto se debe a (i) una pequeña subpoblación cultural para la cual la construcción puede estar mal capturada, o (ii) porque tengo respuestas de los estudiantes en todas las etapas de un programa y hay un aspecto de desarrollo en la construcción mal captada por los ítems de la escala. ¿Hay alguna prueba estadística que me permita investigar esto?
¿Deberían eliminarse los elementos con ritc de la escala? De ser así, ¿hago esto secuencialmente comenzando con el más bajo y en qué punto debo dejar de eliminar elementos / he perdido algo del cuestionario? Si quiero comparar la estructura factorial de la escala entre las subpoblaciones mayores y menores, ¿cómo intento esto o la submuestra menor es demasiado pequeña para sacar conclusiones? Cualquier referencia sería muy apreciada.
Finalmente, el propósito de validar la escala es usarla para determinar la efectividad de una intervención usando una puntuación previa y posterior a la intervención; si un elemento tiene un ritmo bajo, supongo que puede afectar la confiabilidad de la escala en un entorno experimental, o soy incorrecto? ¿Existe alguna forma estadística de determinar la utilidad de una escala diseñada para medir construcciones que tienen un aspecto de desarrollo, es decir, todos los ítems funcionan apropiadamente a medida que el estudiante desarrolla "más" de la construcción actitudinal?
Respuestas:
@suzi Una de las propiedades en las que se basa el análisis Rasch es que las medidas son invariables para los subgrupos. Esta propiedad admite el desarrollo de pruebas adaptativas por computadora y ecuaciones de prueba. Si la invariancia de esta medida es cierta en una población, entonces no existe un funcionamiento diferencial de ítems (DIF). Para ayudarlo con su muestra, puede ejecutar un análisis Rasch para cada subgrupo y comparar el funcionamiento del elemento de cada elemento para cada subgrupo. Si las medidas del ítem difieren en más de 0.50 logits (o mayores que los intervalos de confianza del 95% de las medidas), entonces DIF está presente y el ítem no es invariable. Mientras sus subgrupos tengan no menos de 70 sujetos, debería estar bien.
Un excelente artículo sobre la aplicación de este principio es "Rasch Fit Statistics como prueba de la invarianza de los parámetros estimados de los ítems", Smith, Richard M. y Suh, Kyunghee, Journal of Applied Measurement 4 (2) 153-163.
Como se indica en los comentarios, este es un campo grande y es posible que necesite ayuda. Si es posible un trabajo, puede buscar ayuda a través del Rasch SIG . El software incluiría Winsteps, Facets, RUMM, eRm y otros programas en R.
Espero que esto ayude.
fuente