Sé que en una situación de regresión, si tiene un conjunto de variables altamente correlacionadas, esto generalmente es "malo" debido a la inestabilidad en los coeficientes estimados (la varianza va hacia el infinito a medida que el determinante va hacia cero).
Mi pregunta es si esta "maldad" persiste en una situación de PCA. ¿Los coeficientes / cargas / pesos / vectores propios para cualquier PC en particular se vuelven inestables / arbitrarios / no únicos a medida que la matriz de covarianza se vuelve singular? Estoy particularmente interesado en el caso en el que solo se retiene el primer componente principal, y todos los demás se descartan como "ruido" o "algo más" o "sin importancia".
No creo que sea así, porque solo te quedarán algunos componentes principales que tienen cero o una varianza cercana a cero.
Es fácil ver que este no es el caso en el caso extremo simple con 2 variables: suponga que están perfectamente correlacionadas. Entonces, la primera PC será la relación lineal exacta, y la segunda PC será perpindicular a la primera PC, con todos los valores de PC iguales a cero para todas las observaciones (es decir, varianza cero). Preguntándose si es más general.
fuente
Respuestas:
La respuesta podría darse en términos aún más simples: la regresión múltiple tiene un paso más que el pca si se observa en términos de álgebra lineal, y a partir del segundo paso se produce la inestabilidad:
El primer paso de pca y mult. La regresión puede verse como factorización de la matriz de correlación en dos factores cholesky , que son triangulares y que es indiferente a las correlaciones bajas o altas. (La PCA se puede ver como una rotación de ese factor cholesky (triangular) a la posición de la PC (esto se llama rotación de Jacobi hasta donde recuerdo)R L ⋅ Lt
El mult. El procedimiento de regresión consiste en aplicar una inversión de ese factor cholesky menos la fila y la columna de la variable dependiente, que está convenientemente en la última fila de la matriz de correlación. Aquí entra en juego la inestabilidad: si las variables independientes están altamente correlacionadas, entonces la diagonal del factor cholesky puede degenerar a valores numéricos muy pequeños, e invertir eso introduce el problema de la división por casi cero.L
L
fuente
PCA es a menudo un medio para un fin; que conduce a entradas a una regresión múltiple o para su uso en un análisis de conglomerados. Creo que en su caso, está hablando de usar los resultados de un PCA para realizar una regresión.
En ese caso, su objetivo de realizar un PCA es deshacerse de la mulitcolinealidad y obtener entradas ortogonales para una regresión múltiple, no es sorprendente que esto se llame Regresión de componentes principales. Aquí, si todas sus entradas originales fueran ortogonales, hacer un PCA le daría otro conjunto de entradas ortogonales. Por lo tanto; Si está haciendo un PCA, uno supondría que sus entradas tienen multicolinealidad.
Dado lo anterior, desearía hacer PCA para obtener algunas variables de entrada de un problema que tiene varias entradas. Para determinar cuántas de esas nuevas variables ortogonales debe conservar, a menudo se usa un diagrama de pantalla (Johnson & Wichern, 2001, p. 445). Si tiene una gran cantidad de observaciones, entonces también podría usar la regla general que con ya que el valor propio estimado más grande solo usa hasta e incluyendo aquellos valores donde son mayores o iguales a uno (Johnson & Wichern, 2001, p. 451).λyo^ yot h λyo^pags
Referencias
Johnson y Wichern (2001). Análisis estadístico multivariado aplicado (6ª edición). Prentice Hall.
fuente