Estoy en el proceso de desarrollar empíricamente un cuestionario y utilizaré números arbitrarios en este ejemplo para ilustrar. Por contexto, estoy desarrollando un cuestionario psicológico destinado a evaluar los patrones de pensamiento comúnmente identificados en personas que tienen trastornos de ansiedad. Un elemento podría verse como " Necesito revisar el horno repetidamente porque no puedo estar seguro de que esté apagado ".
Tengo 20 preguntas (Likert de 5 puntos) que pueden estar compuestas por uno o dos factores (tenga en cuenta que en realidad tengo más de 200 preguntas, compuestas por 10 escalas, y cada escala puede estar compuesta por dos factores). Estoy dispuesto a borrar aproximadamente la mitad de los elementos, dejando 10 preguntas sobre uno de dos factores.
Estoy familiarizado con el análisis factorial exploratorio (EFA), la consistencia interna (alfa de Cronbach) y las curvas características del ítem en la teoría de respuesta al ítem (IRT). Puedo ver cómo usaría cualquiera de estos métodos para determinar qué elementos son los "peores" dentro de cualquier escala. Aprecio que cada método también responda diferentes preguntas, aunque pueden conducir a resultados similares y no estoy seguro de qué "pregunta" es más importante.
Antes de comenzar, asegurémonos de saber lo que estoy haciendo con cada uno de estos métodos individualmente.
Usando EFA, identificaría el número de factores y eliminaría los elementos que cargan menos (digamos <.30) en su factor respectivo o que cargan de manera cruzada sustancialmente a través de factores.
Utilizando la consistencia interna, eliminaría los elementos que tienen el peor "alfa si se eliminó el elemento". Podría hacerlo suponiendo un factor en mi escala, o hacerlo después de un EFA inicial para identificar el número de factores y posteriormente ejecutar mi alfa para cada factor.
Usando IRT, eliminaría elementos que no evalúan el factor de interés a lo largo de sus opciones de respuesta (5 Likert). Estaría mirando las curvas características del artículo. Básicamente estaría buscando una línea en un ángulo de 45 grados desde la opción 1 en la escala Likert hasta 5 a lo largo de la puntuación latente. Podría hacerlo suponiendo un factor, o hacerlo después de un
EFA inicial para identificar el número de factores, y luego ejecutar las curvas para cada factor.
No estoy seguro de cuál de estos métodos utilizar para identificar mejor qué elementos son los "peores". Utilizo lo peor en un sentido amplio, de modo que el artículo sería perjudicial para la medida, ya sea en términos de confiabilidad o validez, los cuales son igualmente importantes para mí. Presumiblemente puedo usarlos en conjunto, pero no estoy seguro de cómo.
Si tuviera que seguir adelante con lo que sé ahora y darle lo mejor de mí, haría lo siguiente:
- Haga una EPT para identificar la cantidad de factores. También elimine elementos con cargas incorrectas en sus respectivos factores, ya que no quiero elementos que se carguen mal independientemente de cómo lo harían en otros análisis.
- Haga IRT y elimine también los elementos defectuosos juzgados por ese análisis, si queda alguno de la EFA.
- Simplemente informe el Alfa de Cronbach y no use esa métrica como un medio para eliminar elementos.
¡Cualquier guía general sería muy apreciada!
Aquí también hay una lista de preguntas específicas que quizás pueda responder:
¿Cuál es la diferencia práctica entre eliminar elementos basados en cargas de factores y eliminar elementos basados en el alfa de Chronbach (suponiendo que utilice el mismo diseño de factor para ambos análisis)?
¿Qué debo hacer primero? Suponiendo que hago EFA e IRT con un factor, y ambos identifican diferentes elementos que deberían eliminarse, ¿qué análisis debería tener prioridad?
No estoy decidido a hacer todos estos análisis, aunque informaré el alfa de Chronbach de todos modos. Siento que hacer solo IRT dejaría algo que falta, y del mismo modo solo para EFA.
Respuestas:
No tengo citas, pero esto es lo que sugeriría:
Zeroth: si es posible, divida los datos en un conjunto de entrenamiento y prueba.
Primero haz EPT. Mire varias soluciones para ver cuáles tienen sentido, según su conocimiento de las preguntas. Tendría que hacer esto antes del alfa de Cronbach, o no sabrá qué elementos entran en qué factor. (Ejecutar alfa en TODOS los elementos probablemente no sea una buena idea).
A continuación, ejecute alfa y elimine elementos que tengan correlaciones mucho más pobres que los demás en cada factor. No establecería un límite arbitrario, buscaría unos que fueran mucho más bajos que los demás. Vea si eliminarlos tiene sentido.
Finalmente, elija elementos con una variedad de niveles de "dificultad" de IRT.
Luego, si es posible, rehaga esto en el conjunto de prueba, pero sin hacer ninguna exploración. Es decir, vea qué tan bien funciona el resultado encontrado en el conjunto de entrenamiento en el conjunto de prueba.
fuente
Los tres criterios sugeridos en realidad podrían realizarse en IRT, más específicamente IRT multidimensional. Si el tamaño de su muestra es bastante grande, probablemente sería una forma consistente de hacerlo para cada subescala. De esta forma, podría obtener los beneficios de IRT para modelar ítems de forma independiente (utilizando modelos nominales para algunos ítems, crédito parcial generalizado o calificado para otros, o si es posible, incluso establecer escalas de calificación para ayudar a interpretar ítems politómicos de una manera más parsimoniosa).
Podría intentar eliminar elementos que no se ajustan a los requisitos unidimensionales de la mayoría del software IRT, pero no lo recomendaría necesariamente si afecta la representación teórica de las construcciones en cuestión. En aplicaciones empíricas, generalmente es mejor tratar de hacer que nuestros modelos se ajusten a nuestra teoría, y no al revés. Además, aquí es donde los modelos bifactor / de dos niveles tienden a ser apropiados, ya que le gustaría incluir todos los elementos posibles y tener en cuenta la multidimensionalidad de una manera sistemática y teóricamente deseable.
fuente
mirt
fscores()
sirt
TAM