¿La PCA es inestable bajo multicolinealidad?

25

Sé que en una situación de regresión, si tiene un conjunto de variables altamente correlacionadas, esto generalmente es "malo" debido a la inestabilidad en los coeficientes estimados (la varianza va hacia el infinito a medida que el determinante va hacia cero).

Mi pregunta es si esta "maldad" persiste en una situación de PCA. ¿Los coeficientes / cargas / pesos / vectores propios para cualquier PC en particular se vuelven inestables / arbitrarios / no únicos a medida que la matriz de covarianza se vuelve singular? Estoy particularmente interesado en el caso en el que solo se retiene el primer componente principal, y todos los demás se descartan como "ruido" o "algo más" o "sin importancia".

No creo que sea así, porque solo te quedarán algunos componentes principales que tienen cero o una varianza cercana a cero.

Es fácil ver que este no es el caso en el caso extremo simple con 2 variables: suponga que están perfectamente correlacionadas. Entonces, la primera PC será la relación lineal exacta, y la segunda PC será perpindicular a la primera PC, con todos los valores de PC iguales a cero para todas las observaciones (es decir, varianza cero). Preguntándose si es más general.

probabilidadislogica
fuente
8
Tu razonamiento es bueno. En realidad, uno esperaría que ocurriera inestabilidad cuando dos o más valores propios son casi coincidentes, ya que aunque los valores propios están determinados, los vectores propios no lo son, y por lo tanto tampoco lo son las cargas. Por razones numéricas, también existe inestabilidad en los valores propios (y vectores propios) que son muy pequeños en comparación con el valor propio máximo.
whuber
El comentario de @whuber responde a su pregunta, pero me gustaría señalar que en el caso de 2 variables perfectamente correlacionadas, el PCA no debería tener ningún problema. La matriz de covarianza sería de rango 1, por lo que solo habrá 1 valor propio distinto de cero, por lo tanto, solo 1 PC. Las variables originales serán los múltiplos de esta PC. El único problema puede ser la estabilidad numérica.
mpiktas
De hecho, creo que sería peor si tuviera variables moderadamente correlacionadas que cuando tiene variables realmente altamente correlacionadas. También en términos numéricos, si está utilizando un algoritmo como NIPALS que elimina las PC en orden
JMS
Una cosa: "altamente correlacionados" y "colineales" no son lo mismo. Si hay más de 2 variables involucradas, la colinealidad no implica correlación.
Peter Flom - Restablece a Monica

Respuestas:

11

La respuesta podría darse en términos aún más simples: la regresión múltiple tiene un paso más que el pca si se observa en términos de álgebra lineal, y a partir del segundo paso se produce la inestabilidad:

El primer paso de pca y mult. La regresión puede verse como factorización de la matriz de correlación en dos factores cholesky , que son triangulares y que es indiferente a las correlaciones bajas o altas. (La PCA se puede ver como una rotación de ese factor cholesky (triangular) a la posición de la PC (esto se llama rotación de Jacobi hasta donde recuerdo) RLLt

El mult. El procedimiento de regresión consiste en aplicar una inversión de ese factor cholesky menos la fila y la columna de la variable dependiente, que está convenientemente en la última fila de la matriz de correlación. Aquí entra en juego la inestabilidad: si las variables independientes están altamente correlacionadas, entonces la diagonal del factor cholesky puede degenerar a valores numéricos muy pequeños, e invertir eso introduce el problema de la división por casi cero.L
L

Yelmos de Gottfried
fuente
Esto es más o menos lo que estaba buscando. De hecho, haber leído su respuesta me hace pensar en otra explicación: las rotaciones son numéricamente estables, independientemente del determinante de la matriz de covarianza / correlación. Y dado que PCA se puede enmarcar como encontrar la mejor rotación del eje de coordenadas, también será numéricamente estable.
probabilidadislogica
Sí, por ejemplo, en los "fundamentos del análisis de factores" de Stan Mulaik, se mencionó explícitamente la estabilidad de la rotación de PC (método Jacobi), si recuerdo la fuente correctamente. En mi propia implementación del análisis factorial, hago todo después de cholesky por rotaciones: PCA, Varimax, incluso el "factorización del eje principal" (PAF en SPSS) puede reconstruirse en base a rotaciones. Si la regresión múltiple se basa en el factor cholesky L y la parte de L que contiene las variables independientes está en posición PC, entonces la multicolinealidad puede controlarse aún mejor.
Gottfried Helms
3

PCA es a menudo un medio para un fin; que conduce a entradas a una regresión múltiple o para su uso en un análisis de conglomerados. Creo que en su caso, está hablando de usar los resultados de un PCA para realizar una regresión.

En ese caso, su objetivo de realizar un PCA es deshacerse de la mulitcolinealidad y obtener entradas ortogonales para una regresión múltiple, no es sorprendente que esto se llame Regresión de componentes principales. Aquí, si todas sus entradas originales fueran ortogonales, hacer un PCA le daría otro conjunto de entradas ortogonales. Por lo tanto; Si está haciendo un PCA, uno supondría que sus entradas tienen multicolinealidad.

Dado lo anterior, desearía hacer PCA para obtener algunas variables de entrada de un problema que tiene varias entradas. Para determinar cuántas de esas nuevas variables ortogonales debe conservar, a menudo se usa un diagrama de pantalla (Johnson & Wichern, 2001, p. 445). Si tiene una gran cantidad de observaciones, entonces también podría usar la regla general que con ya que el valor propio estimado más grande solo usa hasta e incluyendo aquellos valores donde son mayores o iguales a uno (Johnson & Wichern, 2001, p. 451).λyo^yothλyo^pags

Referencias

Johnson y Wichern (2001). Análisis estadístico multivariado aplicado (6ª edición). Prentice Hall.

Schenectady
fuente
66
No estoy seguro de que el OP esté después de la PCR. La PCA también es una buena forma de resumir conjuntos de datos multivariados (no necesariamente para realizar la reducción de datos para su uso posterior en un marco de modelado), es decir, aproximar la matriz de VC a una matriz de orden inferior mientras retiene la mayor parte de la información. La pregunta parece ser: ¿estoy en lo cierto al interpretar los primeros valores propios y PC (como combinaciones lineales de las variables originales) incluso si hubo algunos efectos de colinealidad? Su respuesta no parece abordar directamente la pregunta del OP.
chl
2
buena respuesta sobre PCA en general, pero ¿qué pasa cuando PCA es el producto final ? Es decir, el objetivo es generar una sola PC. @Chl está en lo cierto con su interpretación de la pregunta
probabilidad
@chl ¿Cuál es su respuesta a la pregunta: "¿Estoy en lo cierto al interpretar los primeros valores propios y PC incluso si hubo algunos efectos de colinealidad?" Pregunto porque estoy tratando de averiguar cuándo es una buena idea mantener variables altamente correlacionadas al realizar la reducción de dimensionalidad. A veces, cuando sabemos por teoría que dos variables son impulsadas por las mismas variables latentes, entonces debe eliminar una de las variables para no contar el efecto de la variable latente dos veces. Estoy tratando de pensar cuándo está bien mantener las variables correlacionadas.
Amatya