Escribo esta pregunta con referencia a un ejemplo en p138-142 del siguiente documento: ftp://ftp.software.ibm.com/software/analytics/spss/documentation/amos/20.0/en/Manuals/IBM_SPSS_Amos_User_Guide.pdf .
Aquí hay figuras ilustrativas y una tabla:
Entiendo que la variable latente no tiene una métrica natural y que se establece un factor de carga en 1 para solucionar este problema. Sin embargo, hay una serie de cosas que no entiendo (completamente):
¿Cómo soluciona un factor de carga a 1 para solucionar este problema de indeterminación de escala?
¿Por qué arreglar a 1, en lugar de algún otro número?
Entiendo que al fijar uno de los pesos de regresión del factor-> indicador a 1, hacemos todos los otros pesos de regresión para ese factor en relación con él. Pero, ¿qué sucede si establecemos un factor de carga particular en 1 pero luego resulta que las puntuaciones más altas en el factor predicen puntuaciones más bajas en la variable observada en cuestión? Después de establecer inicialmente la carga del factor en 1, ¿podemos llegar a un peso de regresión estandarizado negativo o a un peso de regresión estandarizado negativo?
En este contexto, he visto cargas de factores referidas tanto como coeficientes de regresión como covarianzas. ¿Ambas definiciones son completamente correctas?
¿Por qué necesitábamos fijar space-> visperc y verbal-paragrap ambos en 1? ¿Qué hubiera pasado si hubiéramos arreglado uno de esos caminos a 1?
Mirando el coeficiente estandarizado, ¿cómo puede ser que el coeficiente no estandarizado para wordmean> oración> paragrap, pero mirando los coeficientes estandarizados paragrap> wordmean> oración. Pensé que al fijar el párrafo a 1 inicialmente, todas las demás variables cargadas en el factor se hicieron relativas al párrafo.
También agregaré una pregunta que imagino que tiene una respuesta relacionada: ¿por qué fijar el coeficiente de regresión para los términos únicos (por ejemplo, err_v-> visperc) a 1? ¿Qué significaría que err_v tenga un coeficiente de 1 en la predicción de visperc?
Agradecería mucho las respuestas incluso si no abordan todas las preguntas.
fuente
Respuestas:
Finalmente, tenga en cuenta que err_v es análogo al término de error en un modelo de regresión, por ejemplo,
fuente
Puedo estar malinterpretando la frase "indeterminación de escala", pero creo que se establece en uno para la identificabilidad. (Es decir, el número de incógnitas en este sistema de ecuaciones no debe exceder el número de ecuaciones). Sin establecer uno de los enlaces en uno, hay demasiadas incógnitas. ¿Es eso lo mismo que la indeterminación de escala?
En la mayoría de las aplicaciones SEM, está trabajando con matrices de covarianza, no con los datos sin procesar. Existe un algoritmo alternativo que utiliza los datos originales, llamado PLS (Parciales Mínimos Cuadrados), que podría arrojar algo de luz adicional sobre las cosas para usted.
fuente
Piensa en la interpretación como si fuera una simple regresión. El coeficiente refleja la diferencia de unidades en la variable dependiente asociada con una diferencia de 1 unidad en la variable independiente. Por lo tanto, si un cambio de 1 unidad en el IV está asociado con un cambio de 1 unidad en el DV, entonces las unidades son funcionalmente equivalentes. Necesita una unidad para la variable latente porque desea estimar su varianza, que no es sin unidades. El problema de identificación está relacionado, ya que para un CFA simple con 1 variable latente y 3 indicadores, el modelo no se identifica a menos que se establezca la restricción.
Puede establecerlo en cualquier número, y la naturaleza general de los resultados será la misma (se verifica fácilmente observando el ajuste del modelo, que será idéntico). Es más fácil interpretar el modelo si lo configura en 1.
Independientemente de cómo arregle cualquiera de las cargas de factores, puede obtener elementos cargados positiva y negativamente para la misma variable latente. Puede probar esto multiplicando uno de sus indicadores por -1 y estimando su modelo nuevamente.
Funcionalmente son lo mismo si el coeficiente de regresión no está ajustado (es decir, la variable dependiente solo tiene 1 flecha apuntando hacia él). Si este es el caso, uno puede ser calculado del otro.
¡Intentalo! Cada variable latente necesita una escala, por las razones ya mencionadas.
Este es un problema de escala y es exactamente la razón para usar coeficientes estandarizados. Puedo hacer que cualquier coeficiente de regresión sea arbitrariamente grande dividiendo el DV por números cada vez más grandes. Por lo tanto, un cambio de 1 unidad en el IV producirá cambios cada vez más grandes en las unidades del DV. Al normalizar y comparar cosas similares, evitamos este problema.
Fijar la carga del factor de error en 1 simplemente facilita la interpretación. Hace que la ecuación de regresión respectiva en el SEM tome la forma familiar de Y = BX + e (o Y = BX + 1 * e).
fuente
Stata tiene una muy buena documentación sobre SEM aquí , busque la sección "Identificación 2", tiene respuestas a todas sus preguntas.
la ausencia de escala se produce porque su variable latente no es observable. puede llegar a respuestas numéricas en la encuesta de felicidad, pero la felicidad en sí misma no se mide directamente. ahora tienes que vincular de alguna manera las respuestas como 1 a 10 a la felicidad. así que designa una de las preguntas como un ancla y establece su carga en 1.
no tiene que ser 1, podría ser cualquier valor, pero 1 es conveniente.
tanto espacial como verbal no son observables, por lo que debe establecer la escala para ambos, por lo tanto, tiene anclajes para cada uno.
fuente