Leí sobre los conceptos básicos del análisis de componentes principales del tutorial1 , link1 y link2 .
Tengo un conjunto de datos de 100 variables (incluida la variable de salida Y), quiero reducir las variables a 40 por PCA, y luego predecir la variable Y utilizando esas 40 variables.
Problema 1: después de obtener los componentes principales y elegir los primeros 40 componentes, si aplico la regresión, obtengo alguna función que se ajusta a los datos. Pero, ¿cómo predecir alguna variable Y a partir de los datos originales? Para predecir la variable Y, tengo (100-1) variables en la entrada, y ¿cómo sé qué 40 variables elegir de mis 100-1 originales?
Problema 2: invierto el PCA y recupero los datos de esos 40 componentes principales. Pero los datos se modifican porque elegí solo los primeros 40 componentes. ¿Tiene sentido aplicar la regresión a estos datos?
Yo uso Matlab / Octave.
fuente
Respuestas:
No elige un subconjunto de sus 99 (100-1) variables originales.
Cada uno de los componentes principales son combinaciones lineales de las 99 variables predictoras (variables x, IV, ...). Si usa los primeros 40 componentes principales, cada uno de ellos es una función de las 99 variables predictoras originales. (Al menos con PCA ordinario, hay versiones dispersas / regularizadas como el SPCA de Zou, Hastie y Tibshirani que producirán componentes basados en menos variables).
Considere el caso simple de dos variables positivamente correlacionadas, que por simplicidad asumiremos que son igualmente variables. Entonces, el primer componente principal será un múltiplo (fraccionario) de la suma de ambas variables y el segundo será un múltiplo (fraccionario) de la diferencia de las dos variables; Si los dos no son igualmente variables, el primer componente principal pesará más al uno más variable, pero aún involucrará a ambos.
Luego usa sus 40 nuevas variables como si fueran predictores por derecho propio, tal como lo haría con cualquier problema de regresión múltiple. (En la práctica, hay formas más eficientes de obtener las estimaciones, pero dejemos de lado los aspectos computacionales y tratemos con una idea básica)
Con respecto a su segunda pregunta, no está claro qué quiere decir con "reversión del PCA".
Ver también Wikipedia sobre regresión de componentes principales .
fuente