Actualmente estoy usando el análisis de componentes principales para seleccionar variables para usar en el modelado. Por el momento, hago mediciones A, B y C en mis experimentos. Lo que realmente quiero saber es: ¿puedo hacer menos mediciones y dejar de registrar C y / o B para ahorrar tiempo y esfuerzo?
Encuentro que las 3 variables se cargan fuertemente en mi primer componente principal, que representa el 60% de la variación en mis datos. Los puntajes de los componentes me dicen que si agrego estas variables juntas en una cierta proporción (aA + bB + cC). Puedo obtener una puntuación en PC1 para cada caso en mi conjunto de datos y podría usar esta puntuación como una variable en el modelado, pero eso no me permite dejar de medir B y C.
Si cuadro las cargas de A y B y C en PC1, encuentro que la variable A representa el 65% de la varianza en PC1 y la variable B representa el 50% de la varianza en PC1 y la variable C también 50%, es decir, algunos de la varianza en PC1 explicada por cada variable A, B y C se comparte con otra variable, pero A aparece en la parte superior y representa un poco más.
¿Es incorrecto pensar que podría elegir la variable A o posiblemente (aA + bB, si es necesario) para usar en el modelado porque esta variable describe una gran proporción de la varianza en PC1 y esto a su vez describe una gran proporción de la varianza en ¿los datos?
¿Qué enfoque has seguido en el pasado?
- ¿Variable única que carga más pesado en PC1 incluso si hay otros cargadores pesados?
- ¿Puntaje de componente en PC1 usando todas las variables, incluso si son todos cargadores pesados?
Si solo tiene 3 IV, ¿por qué desea reducirlos?
Es decir, ¿su muestra es muy pequeña (de modo que 3 IVs corren el riesgo de sobreajuste)? En este caso, considere mínimos cuadrados parciales
¿O las mediciones son muy caras (entonces, en el futuro, le gustaría medir solo un IV)? En este caso, consideraría mirar las diferentes regresiones con cada IV por separado y en conjunto.
¿O alguien en su pasado enfatizó demasiado el valor de la parsimonia? En este caso, ¿por qué no incluir los 3 IV?
fuente