Estoy usando el Análisis de componentes principales (PCA) para crear un índice requerido para mi investigación. Mi pregunta es cómo debo crear un índice único utilizando los componentes principales retenidos calculados a través de PCA.
Por ejemplo, decidí retener 3 componentes principales después de usar PCA y calculé los puntajes para estos 3 componentes principales. ¿Cuáles son las formas apropiadas de crear, para cada encuestado, un índice único de estos 3 puntajes?
- ¿Es relevante agregar las 3 puntuaciones calculadas para tener un valor compuesto?
- ¿O para promediar las 3 puntuaciones para tener ese valor?
- ¿O debería mantener solo el primer componente principal (el más fuerte) y usar su puntaje como índice?
Alternativamente, uno podría usar el Análisis Factorial (FA) pero la misma pregunta sigue siendo: ¿cómo crear un índice único basado en varios puntajes factoriales?
pca
factor-analysis
rating
composite
scale-construction
usuario179313
fuente
fuente
Respuestas:
Esta respuesta es deliberadamente no matemática y está orientada hacia un psicólogo no estadístico (digamos) que pregunta si puede sumar / promediar puntajes de factores diferentes para obtener un puntaje de "índice compuesto" para cada encuestado.
Sumar o promediar los puntajes de algunas variables supone que las variables pertenecen a la misma dimensión y son medidas fungibles. (En la pregunta, "variables" son puntajes de componentes o factores , que no cambian la cosa, ya que son ejemplos de variables).
Realmente (Fig. 1), los encuestados 1 y 2 pueden verse igualmente atípicos (es decir, desviados de 0, el lugar geométrico del centro de datos o el origen de la escala), ambos con la misma puntuación media y ( 1.2 + .4 ) / 2 = .8 . El valor .8 es válido, como el grado de atipicidad, para la construcción X + Y tan perfectamente como lo fue para X e Y(.8+.8)/2=.8 (1.2+.4)/2=.8 .8 X+Y X Y por separado. Las variables correlacionadas, que representan la misma dimensión, pueden verse como mediciones repetidas de la misma característica y la diferencia o no equivalencia de sus puntajes como error aleatorio. Por lo tanto, se recomienda sumar / promediar los puntajes ya que se espera que los errores aleatorios se cancelen entre sí en spe .
Eso no es así si e Y no se correlacionan lo suficiente como para ver la misma "dimensión". Para entonces, la desviación / atipicidad de un encuestado se transmite por la distancia euclidiana desde el origen (Fig. 2).X Y
Esa distancia es diferente para los encuestados 1 y 2: y√.82+.82−−−−−−−√≈1.13 1.22+.42−−−−−−−−√≈1.26 X=.8 Y=−.8 X=0 Y=0
(Podría exclamar "Haré que todos los puntajes de datos sean positivos y calcularé la suma (o promedio) con buena conciencia ya que he elegido la distancia de Manhattan", pero por favor piense: ¿tiene usted la razón para mover el origen libremente? Componentes o factores principales, por ejemplo, se extraen bajo la condición de que los datos se hayan centrado en la media, lo que tiene sentido. Otro origen habría producido otros componentes / factores con otras puntuaciones. No, la mayoría de las veces no se puede jugar con el origen: el locus de "encuestado típico" o de "rasgo de nivel cero", como desees jugar).
En resumen , si el objetivo de la construcción compuesta es reflejar las posiciones de los encuestados en relación con un "cero" o lugar geométrico típico, pero las variables apenas se correlacionan, algún tipo de distancia espacial desde ese origen, y no media (o suma), ponderada o no ponderado, se debe elegir.
Bueno, la media (suma) tendrá sentido si decide ver las variables (no correlacionadas) como modos alternativos para medir lo mismo . De esta manera, ignora deliberadamente la naturaleza diferente de las variables. En otras palabras, conscientemente abandonas la Fig. 2 a favor de la Fig. 1: "olvidas" que las variables son independientes. Entonces, suma o promedio. Por ejemplo, se podría promediar la puntuación en "bienestar material" y en "bienestar emocional", así como las puntuaciones en "coeficiente intelectual espacial" y en "coeficiente intelectual verbal". Este tipo de puramente pragmático, los compuestos satísticamente no aprobados se denominan índices de batería (una colección de pruebas o cuestionarios que miden cosas no relacionadas o correlacionadas cuyas correlaciones ignoramos se llama "batería"). Los índices de batería solo tienen sentido si los puntajes tienen la misma dirección (por ejemplo, tanto la riqueza como la salud emocional se consideran un polo "mejor"). Su utilidad fuera de la configuración ad hoc estrecha es limitada.
Si las variables están en relaciones intermedias, están considerablemente correlacionadas y no son lo suficientemente fuertes como para verlas como duplicados, alternativas, entre sí, a menudo sumamos (o promediamos) sus valores de manera ponderada. Luego, estos pesos deben diseñarse cuidadosamente y deben reflejar, de una manera u otra, las correlaciones. Esto es lo que hacemos, por ejemplo, mediante PCA o análisis factorial (FA) donde calculamos especialmente las puntuaciones de componentes / factores. Si sus variables ya son puntajes de componentes o factores (como dice la pregunta OP aquí) y están correlacionadas (debido a la rotación oblicua), puede someterlas (o directamente la matriz de carga) al PCA / FA de segundo orden para encontrar los pesos y obtenga el PC / factor de segundo orden que le servirá el "índice compuesto".
Pero si los puntajes de sus componentes / factores no estaban correlacionados o estaban débilmente correlacionados, no hay razón estadística ni para sumarlos sin rodeos ni para inferir pesos. Use algo de distancia en su lugar. El problema con la distancia es que siempre es positivo: puede decir qué tan atípico es un encuestado, pero no puede decir si está "arriba" o "abajo". Pero este es el precio que tiene que pagar por exigir un índice único del espacio de rasgos múltiples. Si quieres desviarte y firmar en ese espacio, diría que eres demasiado exigente.
En el último punto, el OP pregunta si es correcto tomar solo el puntaje de una variable más fuerte con respecto a su varianza, el primer componente principal en este caso, como el único proxy para el "índice". Tiene sentido si esa PC es mucho más fuerte que las demás. Aunque uno podría preguntar "si es mucho más fuerte, ¿por qué no extrajo / retuvo solo la suela?".
fuente
Creación de índice compuesto utilizando PCA a partir de enlaces de series temporales a http://www.cup.ualberta.ca/wp-content/uploads/2013/04/SEICUPWebsite_10April13.pdf .
En ese artículo en la página 19, los autores mencionan una forma de crear un Índice No Estandarizado (NSI) usando la proporción de variación explicada por cada factor a la variación total explicada por los factores elegidos. Este NSI se normalizó.
fuente