¿Cómo aplicar la regresión en los componentes principales para predecir una variable de salida?

Leí sobre los conceptos básicos del análisis de componentes principales del tutorial1 , link1 y link2 .

Tengo un conjunto de datos de 100 variables (incluida la variable de salida Y), quiero reducir las variables a 40 por PCA, y luego predecir la variable Y utilizando esas 40 variables.

Problema 1: después de obtener los componentes principales y elegir los primeros 40 componentes, si aplico la regresión, obtengo alguna función que se ajusta a los datos. Pero, ¿cómo predecir alguna variable Y a partir de los datos originales? Para predecir la variable Y, tengo (100-1) variables en la entrada, y ¿cómo sé qué 40 variables elegir de mis 100-1 originales?

Problema 2: invierto el PCA y recupero los datos de esos 40 componentes principales. Pero los datos se modifican porque elegí solo los primeros 40 componentes. ¿Tiene sentido aplicar la regresión a estos datos?

Yo uso Matlab / Octave.

regression pca munjal007
fuente

Para hacer PCA, ¿qué software o programa utilizas? Por ejemplo, en SPSS este análisis se puede hacer fácilmente y puede establecer el número de componentes principales que desea extraer y puede ver cuáles se seleccionan en la salida. Por supuesto, aplicar la regresión en estos datos tiene sentido porque PCA se usa solo para la reducción de dimensiones.

merveceng

Si solo está interesado en hacer predicciones, debe tener en cuenta que Hastie, Tibshirani y Friedman recomiendan la regresión LASSO sobre la regresión de componentes principales porque LASSO supuestamente hace lo mismo (mejora la capacidad predictiva al reducir el número de variables en el modelo), pero mejor. LASSO también está ampliamente disponible hoy en día en paquetes estadísticos.

shadowtalker

@ssdecontrol: Do Hastie et al. ¿recomienda específicamente lazo sobre la regresión del componente principal? La PCR está mucho más conectada a la regresión de la cresta que al lazo: no impone ninguna dispersión (es decir, no está haciendo una selección de características, a diferencia del lazo), sino que penaliza todos los pesos similares a la cresta. Quizás recomiendan una red elástica sobre la PCR, pero es lazo más cresta.

ameba

@amoeba Acabo de ir y revisé el PDF en línea. O el texto cambió o no entendí bien la primera vez que lo leí. La conclusión no es que "el lazo es superior", sino que "la PCR, PLS y la regresión de cresta tienden a comportarse de manera similar", y esa cresta podría ser mejor porque es continua. ¡Gracias por ser honesto conmigo!

shadowtalker

Respuestas:

No elige un subconjunto de sus 99 (100-1) variables originales.

Cada uno de los componentes principales son combinaciones lineales de las 99 variables predictoras (variables x, IV, ...). Si usa los primeros 40 componentes principales, cada uno de ellos es una función de las 99 variables predictoras originales. (Al menos con PCA ordinario, hay versiones dispersas / regularizadas como el SPCA de Zou, Hastie y Tibshirani que producirán componentes basados en menos variables).

Considere el caso simple de dos variables positivamente correlacionadas, que por simplicidad asumiremos que son igualmente variables. Entonces, el primer componente principal será un múltiplo (fraccionario) de la suma de ambas variables y el segundo será un múltiplo (fraccionario) de la diferencia de las dos variables; Si los dos no son igualmente variables, el primer componente principal pesará más al uno más variable, pero aún involucrará a ambos.

$y$ $X$

Luego usa sus 40 nuevas variables como si fueran predictores por derecho propio, tal como lo haría con cualquier problema de regresión múltiple. (En la práctica, hay formas más eficientes de obtener las estimaciones, pero dejemos de lado los aspectos computacionales y tratemos con una idea básica)

Con respecto a su segunda pregunta, no está claro qué quiere decir con "reversión del PCA".

$X$ $Z=XW$ $X$ $n\times 99$ $W$ $99\times 40$ $40$ $\hat{y}=Z\hat{\beta}_\text{PC}$

$\hat{y}=Z\hat{\beta}_\text{PC}=XW\hat{\beta}_\text{PC}=X\hat{\beta}^*$ $\hat{\beta}^*=W\hat{\beta}_\text{PC}$ $y$ $X$ . No es lo mismo que los coeficientes que obtienes al estimar una regresión en las X originales, por supuesto, se regulariza haciendo el PCA; aunque obtendrías coeficientes para cada una de tus X originales de esta manera, solo tienen el df de la cantidad de componentes que montaste.

Ver también Wikipedia sobre regresión de componentes principales .

Glen_b -Reinstate a Monica
fuente