Estoy leyendo un artículo donde el autor descarta varias variables debido a la alta correlación con otras variables antes de hacer PCA. El número total de variables es de alrededor de 20.
¿Esto le da algún beneficio? A mí me parece una sobrecarga, ya que PCA debería manejar esto automáticamente.
correlation
pca
tipo 2
fuente
fuente
Respuestas:
Esto expone la sugerencia perspicaz proporcionada en un comentario de @ttnphns.
Junto a variables casi correlacionadas aumenta la contribución de su factor subyacente común a la PCA. Podemos ver esto geométricamente. Considere estos datos en el plano XY, que se muestra como una nube de puntos:
Hay poca correlación, una covarianza aproximadamente igual, y los datos están centrados: PCA (sin importar cómo se realice) informaría dos componentes aproximadamente iguales.
Agreguemos ahora una tercera variable igual a más una pequeña cantidad de error aleatorio. La matriz de correlación de muestra esto con los pequeños coeficientes fuera de la diagonal, excepto entre las filas y columnas segunda y tercera ( y ):Y ( X , Y , Z ) Y ZZ Y ( X, Y, Z) Y Z
Geométricamente, hemos desplazado todos los puntos originales casi verticalmente, levantando la imagen anterior directamente del plano de la página. Esta nube de puntos pseudo 3D intenta ilustrar el levantamiento con una vista en perspectiva lateral (basada en un conjunto de datos diferente, aunque generado de la misma manera que antes):
Los puntos se encuentran originalmente en el plano azul y se elevan a los puntos rojos. El eje original apunta a la derecha. La inclinación resultante también extiende los puntos a lo largo de las direcciones YZ, duplicando así su contribución a la varianza. En consecuencia, un PCA de estos nuevos datos aún identificaría dos componentes principales principales, pero ahora uno de ellos tendrá el doble de varianza que el otro.Y
Esta expectativa geométrica se confirma con algunas simulacionesX2 X5 5
R
. Para esto, repetí el procedimiento de "levantamiento" creando copias casi colineales de la segunda variable una segunda, tercera, cuarta y quinta vez, nombrándolas a . Aquí hay una matriz de diagrama de dispersión que muestra cómo esas últimas cuatro variables están bien correlacionadas:X 5El PCA se realiza utilizando correlaciones (aunque en realidad no importa para estos datos), utilizando las dos primeras variables, luego tres, ... y finalmente cinco. Muestro los resultados usando gráficas de las contribuciones de los componentes principales a la varianza total.
Inicialmente, con dos variables casi sin correlación, las contribuciones son casi iguales (esquina superior izquierda). Después de agregar una variable correlacionada con la segunda, exactamente como en la ilustración geométrica, todavía hay solo dos componentes principales, uno ahora dos veces más grande que el otro. (Un tercer componente refleja la falta de correlación perfecta; mide el "grosor" de la nube en forma de panqueque en el diagrama de dispersión 3D.) Después de agregar otra variable correlacionada ( ), el primer componente ahora es aproximadamente tres cuartos del total ; después de agregar un quinto, el primer componente es casi cuatro quintos del total. En los cuatro casos, los componentes después del segundo probablemente serían considerados intrascendentes por la mayoría de los procedimientos de diagnóstico de PCA; en el último casoX4 4 Un componente principal que vale la pena considerar.
Ahora podemos ver que puede haber mérito en descartar variables que se piensa que miden el mismo aspecto subyacente (pero "latente") de una colección de variables , porque incluir las variables casi redundantes puede hacer que el PCA enfatice demasiado su contribución. No hay nada matemáticamente correcto (o incorrecto) sobre tal procedimiento; Es una decisión basada en los objetivos analíticos y el conocimiento de los datos. Pero debe quedar muy claro que dejar de lado las variables que se sabe que están fuertemente correlacionadas con otras puede tener un efecto sustancial en los resultados de la PCA.
Aquí está el
R
código.fuente
Ilustraré aún más el mismo proceso y la misma idea que @whuber, pero con los gráficos de carga, porque las cargas son la esencia de los resultados de PCA.
Las gráficas de cargas de los primeros 2 componentes principales se van. Los picos rojos en las gráficas cuentan las correlaciones entre las variables, de modo que en el grupo de varios picos es donde se encuentra un grupo de variables estrechamente correlacionadas. Los componentes son las líneas grises; La "fuerza" relativa de un componente (su magnitud de valor propio relativo) viene dada por el peso de la línea.
Se pueden observar dos efectos de agregar las "copias":
No reanudaré la moraleja porque @whuber ya lo hizo.
Adición 2. En adición anterior estaba hablando acerca de "espacio de las variables" y "espacio sujeto" como si fueran incompatibles entre sí como el agua y el aceite. Tuve que reconsiderarlo y puedo decir que, al menos cuando hablamos de PCA , ambos espacios son isomórficos al final, y por esa virtud podemos mostrar correctamente todos los detalles de PCA: puntos de datos, ejes variables, ejes componentes, variables como puntos, - en un solo biplot sin distorsión.
A continuación se muestran el diagrama de dispersión (espacio variable) y el gráfico de carga (espacio componente, que es el espacio sujeto por su origen genético). Todo lo que podría mostrarse en uno, también podría mostrarse en el otro. Las imágenes son idénticas , solo giran 45 grados (y se reflejan, en este caso particular) entre sí. Eso era un PCA de variables V1 y V2 (estandarizado, por lo que fue r que fue analizado). Las líneas negras en las imágenes son las variables como ejes; las líneas verde / amarilla son los componentes como ejes; los puntos azules son la nube de datos (sujetos); Los puntos rojos son las variables que se muestran como puntos (vectores).
fuente
The software was free to choose any orthogonal basis for that space, arbitrarily
aplica a la nube redonda en el espacio variable (es decir, el diagrama de dispersión de datos, como la primera imagen en su respuesta), pero la gráfica de carga es el espacio sujeto donde las variables, no los casos, son puntos (vectores).Sin los detalles de su trabajo, conjeturaría que este descarte de variables altamente correlacionadas se realizó simplemente para ahorrar energía computacional o carga de trabajo. No puedo ver una razón por la cual PCA 'se rompería' para variables altamente correlacionadas. Proyectar datos de nuevo en las bases encontradas por PCA tiene el efecto de blanquear los datos (o descorrelacionarlos). Ese es todo el punto detrás de PCA.
fuente
Según tengo entendido, las variables correlacionadas están bien, porque PCA genera vectores que son ortogonales.
fuente
Bueno, depende de tu algoritmo. Las variables altamente correlacionadas pueden significar una matriz mal condicionada. Si usa un algoritmo sensible a eso, podría tener sentido. Pero me atrevo a decir que la mayoría de los algoritmos modernos utilizados para generar valores y vectores propios son sólidos para esto. Intente eliminar las variables altamente correlacionadas. ¿Los valores propios y el vector propio cambian mucho? Si lo hacen, entonces el mal acondicionamiento podría ser la respuesta. Debido a que las variables altamente correlacionadas no agregan información, la descomposición de PCA no debería cambiar
fuente
Depende del método de selección de componentes principal que utilice, ¿no?
Tiendo a usar cualquier componente principal con un valor propio> 1. Por lo tanto, no me afectaría.
Y de los ejemplos anteriores, incluso el método de diagrama de pantalla generalmente elegiría el correcto. SI GUARDAS TODO ANTES DEL CODO. Sin embargo, si simplemente eligió el componente principal con el valor propio "dominante", sería desviado. ¡Pero esa no es la forma correcta de usar un diagrama de pantalla!
fuente