Hace un tiempo, un usuario en la lista de correo de R-help preguntó sobre la solidez del uso de las puntuaciones de PCA en una regresión. El usuario está tratando de usar algunas puntuaciones de PC para explicar la variación en otra PC (vea la discusión completa aquí ). La respuesta fue que no, esto no es bueno porque las PC son ortogonales entre sí.
¿Alguien puede explicar con un poco más de detalle por qué es así?
regression
pca
Roman Luštrik
fuente
fuente
r
etiqueta y qué quieres decir con "por qué esto es así"? Las PC no están correlacionadas, es decir, son ortogonales, aditivas, no se puede predecir una PC con la otra. ¿Estás buscando una fórmula?Respuestas:
Un componente principal es una combinación lineal ponderada de todos sus factores (X).
ejemplo: PC1 = 0.1X1 + 0.3X2
Habrá un componente para cada factor (aunque en general se selecciona un número pequeño).
Los componentes se crean de tal manera que tienen correlación cero (son ortogonales), por diseño.
Por lo tanto, el componente PC1 no debe explicar ninguna variación en el componente PC2.
Es posible que desee hacer una regresión en su variable Y y la representación PCA de sus X, ya que no tendrán multicolinealidad. Sin embargo, esto podría ser difícil de interpretar.
Si tiene más X que observaciones, lo que rompe los MCO, puede retroceder en sus componentes y simplemente seleccionar un número menor de los componentes de mayor variación.
Análisis de componentes principales de Jollife, un libro muy profundo y muy citado sobre el tema
Esto también es bueno: http://www.statsoft.com/textbook/principal-components-factor-analysis/
fuente
Los componentes principales son ortogonales por definición, por lo que cualquier par de PC tendrá una correlación cero.
Sin embargo, PCA puede usarse en regresión si hay una gran cantidad de variables explicativas. Estos pueden reducirse a un pequeño número de componentes principales y usarse como predictores en una regresión.
fuente
Cuidado ... solo porque las PC son por construcción ortogonales entre sí no significa que no haya un patrón o que una PC no pueda "explicar" algo sobre las otras PC.
Considere los datos en 3D (X, Y, Z) que describen una gran cantidad de puntos distribuidos uniformemente en la superficie de un fútbol americano (es un elipsoide, no una esfera, para aquellos que nunca han visto fútbol americano). Imagine que la pelota de fútbol está en una configuración arbitraria de modo que ni X ni Y ni Z están a lo largo del eje largo de la pelota de fútbol.
Los componentes principales colocarán la PC1 a lo largo del eje largo de la pelota de fútbol, el eje que describe la mayor variación en los datos.
Para cualquier punto en la dimensión PC1 a lo largo del eje largo de la pelota de fútbol, el corte plano representado por PC2 y PC3 debe describir un círculo y el radio de este corte circular depende de la dimensión PC1. Es cierto que las regresiones de PC2 o PC3 en PC1 deberían dar un coeficiente cero a nivel mundial, pero no en secciones más pequeñas de la pelota de fútbol ... y está claro que un gráfico 2D de PC1 y PC2 mostraría un límite límite "interesante" eso es de dos valores, no lineal y simétrico.
fuente
Si sus datos son de alta dimensión y ruidosos, y no tiene una gran cantidad de muestras, corre el peligro de sobreajustar. En tales casos, tiene sentido usar PCA (que puede capturar una parte dominante de la variación de datos; la ortogonalidad no es un problema) o el análisis factorial (que puede encontrar las verdaderas variables explicativas subyacentes a los datos) para reducir la dimensionalidad de los datos y luego entrenar un modelo de regresión con ellos.
Para los enfoques basados en el análisis factorial, consulte este documento Modelo de regresión del factor bayesiano y una versión bayesiana no paramétrica de este modelo que no asume que a priori conoce el número "verdadero" de factores relevantes (o componentes principales en el caso de PCA).
Agregaría que en muchos casos, la reducción supervisada de la dimensionalidad (por ejemplo, Análisis discriminante de Fisher ) puede proporcionar mejoras sobre los enfoques simples basados en PCA o FA, porque puede utilizar la información de la etiqueta mientras realiza la reducción de la dimensionalidad.
fuente
usted puede ser que tire de ella si la puntuación PC predicho fue extraído de diferentes variables, o los casos, que las puntuaciones predictor de PC. si ese es el caso predicho y el predictor no será ortogonal, o al menos no es necesario, la correlación, por supuesto, no está garantizada.
fuente