Ejemplos de PCA donde las PC con baja varianza son "útiles"

24

Normalmente, en el análisis de componentes principales (PCA) se utilizan las primeras PC y se eliminan las PC de baja varianza, ya que no explican gran parte de la variación en los datos.

Sin embargo, ¿hay ejemplos en los que las PC de baja variación son útiles (es decir, se usan en el contexto de los datos, tienen una explicación intuitiva, etc.) y no se deben desechar?

Miguel
fuente
55
Bastante. Ver PCA, aleatoriedad del componente? Esto puede incluso ser un duplicado, pero su título es mucho más claro (por lo tanto, probablemente sea más fácil de encontrar buscando), así que no lo elimine incluso si se cierra como tal.
Nick Stauner

Respuestas:

18

Aquí hay un extracto interesante de Jolliffe (1982) que no incluí en mi respuesta anterior a la pregunta muy similar, " Componentes de baja varianza en PCA, ¿son realmente solo ruido? ¿Hay alguna forma de probarlo? " Es bastante intuitivo.

Suponga que es necesario predecir la altura de la base de la nube, , un problema importante en los aeropuertos. Diversas variables climáticas se miden incluyendo la temperatura de superficie T s , y punto de rocío superficie, T d . Aquí, T d es la temperatura a la cual el aire de la superficie estaría saturado con vapor de agua, y la diferencia T s - T d , es una medida de la humedad de la superficie. Ahora T s , T d están generalmente correlacionados positivamente, por lo que un análisis de componentes principales de las variables climáticas tendrá un componente de alta varianza que está altamente correlacionado con THTsTdTdTsTreTs,Tre , y un componente de baja varianza que se correlaciona de manera similar con T s - T d . Pero H está relacionada con la humedad y por lo tanto a T s - T d , es decir, a un mínimo de varianza en lugar de un componente de alta varianza, por lo que una estrategia que rechaza los componentes de baja varianza dará predicciones pobres para H .Ts+TreTs-TreHTs-TreH
La discusión de este ejemplo es necesariamente vaga debido a los efectos desconocidos de cualquier otra variable climática que también se mide e incluye en el análisis. Sin embargo, muestra un caso físicamente plausible en el que una variable dependiente estará relacionada con un componente de baja varianza, lo que confirma los tres ejemplos empíricos de la literatura.
Además, el ejemplo de la base de la nube se ha probado en datos del aeropuerto de Cardiff (Gales) para el período 1966-1973 con una variable climática adicional, la temperatura de la superficie del mar, también incluida. Los resultados fueron esencialmente como se predijeron anteriormente. El último componente principal fue aproximadamente , y representó solo el 0,4 por ciento de la variación total. Sin embargo, en una regresión de componente principal que era fácilmente el predictor más importante para H . [Énfasis añadido]Ts-TreH

Los tres ejemplos de la literatura mencionados en la última oración del segundo párrafo fueron los tres que mencioné en mi respuesta a la pregunta vinculada .


Referencia
Jolliffe, IT (1982). Nota sobre el uso de componentes principales en regresión. Estadísticas aplicadas, 31 (3), 300–303. Recuperado de http://automatica.dei.unipd.it/public/Schenato/PSC/2010_2011/gruppo4-Building_termo_identification/IdentificazioneTermodinamica20072008/Biblio/Articoli/PCR%20vecchio%2082.pdf .

Nick Stauner
fuente
Esto es realmente genial. Solo agregaría una nota de que siempre es mayor que V ( A - . Eso me hizo tropezar por un segundo en entender por quéV(UNA+si)=V(UNA)+V(si)+2doov(UNA,si)V(UNA-si)=V(UNA)+V(si)-2doov(UNA,si) era necesariamente un componente de "baja varianza"Ts-Tre
shadowtalker
+1, este es un buen ejemplo. Curiosamente, también es un ejemplo de supresión.
gung - Restablece a Monica
17

Si tiene R, hay un buen ejemplo en los crabsdatos del paquete MASS.

> library(MASS)
> data(crabs)
> head(crabs)

  sp sex index   FL  RW   CL   CW  BD
1  B   M     1  8.1 6.7 16.1 19.0 7.0
2  B   M     2  8.8 7.7 18.1 20.8 7.4
3  B   M     3  9.2 7.8 19.0 22.4 7.7
4  B   M     4  9.6 7.9 20.1 23.1 8.2
5  B   M     5  9.8 8.0 20.3 23.0 8.2
6  B   M     6 10.8 9.0 23.0 26.5 9.8

> crabs.n <- crabs[,4:8]
> pr1 <- prcomp(crabs.n, center=T, scale=T)
> cumsum(pr1$sdev^2)/sum(pr1$sdev^2)
[1] 0.9577670 0.9881040 0.9974306 0.9996577 1.0000000

Más del 98% de la variación se "explica" por las dos primeras PC, pero de hecho si realmente había recopilado estas medidas y las estaba estudiando, la tercera PC es muy interesante, ya que está estrechamente relacionada con las especies de cangrejo. Pero está inundado por PC1 (que parece corresponder al tamaño del cangrejo) y PC2 (que parece corresponder al sexo del cangrejo).

ingrese la descripción de la imagen aquí

ingrese la descripción de la imagen aquí

Flounderer
fuente
2
+1, esta es una demostración realmente ordenada. Hice 2 matrices de diagrama de dispersión que podrían agregarse, si lo desea.
gung - Restablece a Monica
1
@gung: ¡Gracias por agregar los diagramas de dispersión! Voté esta respuesta antes, pero no la aprecié completamente sin ver las tramas. Scatterplot PC2 vs PC3 es realmente agradable: separa ambos géneros y especies casi a la perfección. También me gusta este ejemplo porque ilustra lo que sucede cuando todas las variables están fuertemente correlacionadas positivamente (es decir, PC1 explica muchas variaciones y es básicamente un promedio).
ameba dice Reinstate Monica
1
Gracias @amoeba. Realmente me gusta cómo resultaron. Pasé mucho tiempo fumigando con ellos (colores, pch, etiquetas, leyenda). De hecho, creo que son bastante bonitas ahora. Haces un buen punto sobre PC1. También podemos ver que hay (probablemente) un coeficiente de variación constante y una interacción por sexo y / o especie en muchas de las relaciones: los cangrejos pequeños (¿bebés?) Tienden a tener los mismos valores independientemente del sexo o la especie, pero como crecen (¿edad?) se vuelven más distintos. Etc. Hay muchas cosas interesantes para ver, puedes seguir mirándolas.
Gung - Restablece a Monica
8

Aquí hay dos ejemplos de mi experiencia (quimiometría, espectroscopía óptica / vibracional / Raman):

  • Recientemente tuve datos de espectroscopía óptica, donde> 99% de la variación total de los datos sin procesar se debió a cambios en la luz de fondo (foco más o menos intenso en el punto medido, lámparas fluorescentes encendidas / apagadas, más o menos nubes antes el sol). Después de la corrección de fondo con los espectros ópticos de los factores de influencia conocidos (extraídos por PCA en los datos en bruto; medidas adicionales tomadas para cubrir esas variaciones), el efecto que nos interesaba apareció en las PC 4 y 5. Las
    PC 1 y 3 donde debido a otros efectos en la muestra medida, y la PC 2 se correlaciona con el calentamiento de la punta del instrumento durante las mediciones.

  • En otra medición, se utilizó una lente sin corrección de color para el rango espectral medido. La aberración cromática conduce a distorsiones en los espectros que explicaron ca. 90% de la varianza total de los datos preprocesados ​​(capturados principalmente en la PC 1).
    Para estos datos nos llevó bastante tiempo darnos cuenta de lo que había sucedido exactamente, pero cambiar a un objetivo mejor resolvió el problema para experimentos posteriores.

(No puedo mostrar detalles ya que estos estudios aún no se han publicado)

cbeleites apoya a Monica
fuente
3

Me di cuenta de que las PC con baja varianza son más útiles cuando se realiza una PCA en una matriz de covarianza donde los datos subyacentes se agrupan o agrupan de alguna manera. Si uno de los grupos tiene una varianza promedio sustancialmente menor que los otros grupos, entonces las PC más pequeñas estarían dominadas por ese grupo. Sin embargo, es posible que tenga alguna razón para no querer tirar los resultados de ese grupo.

En finanzas, los rendimientos de las acciones tienen una desviación estándar anual de alrededor del 15-25%. Los cambios en los rendimientos de los bonos son históricamente una desviación estándar mucho más baja. Si realiza PCA en la matriz de covarianza de los rendimientos de las acciones y los cambios en los rendimientos de los bonos, las PC superiores reflejarán la variación de las acciones y las más pequeñas reflejarán las variaciones de los bonos. Si tira las PC que explican los enlaces, entonces podría tener algunos problemas. Por ejemplo, los bonos pueden tener características de distribución muy diferentes a las existencias (colas más delgadas, diferentes propiedades de varianza que varían en el tiempo, diferente reversión a la media, cointegración, etc.). Estos pueden ser muy importantes para modelar, dependiendo de las circunstancias.

Si realiza PCA en la matriz de correlación, es posible que vea más PC explicando los enlaces cerca de la parte superior.

John
fuente
Esta respuesta es muy difícil de entender si uno no sabe qué acciones, bonos, rendimientos y retornos son. Yo no, y por eso no puedo ver cómo su primera frase se relaciona con su segundo ...
ameba dice Restablecer Monica
1
He hecho algunas ediciones.
John
1

En esta charla ( diapositivas ), los presentadores discuten su uso de PCA para discriminar entre las características de alta variabilidad y baja variabilidad.

En realidad, prefieren las características de baja variabilidad para la detección de anomalías, ya que un cambio significativo en una dimensión de baja variabilidad es un fuerte indicador de comportamiento anómalo. El ejemplo motivador que brindan es el siguiente:

Suponga que un usuario siempre inicia sesión desde una Mac. La dimensión del "sistema operativo" de su actividad sería muy baja. Pero si viéramos un evento de inicio de sesión del mismo usuario en el que el "sistema operativo" era Windows, sería muy interesante y algo que nos gustaría captar.

turtlemonvh
fuente