Normalmente, en el análisis de componentes principales (PCA) se utilizan las primeras PC y se eliminan las PC de baja varianza, ya que no explican gran parte de la variación en los datos.
Sin embargo, ¿hay ejemplos en los que las PC de baja variación son útiles (es decir, se usan en el contexto de los datos, tienen una explicación intuitiva, etc.) y no se deben desechar?
Respuestas:
Aquí hay un extracto interesante de Jolliffe (1982) que no incluí en mi respuesta anterior a la pregunta muy similar, " Componentes de baja varianza en PCA, ¿son realmente solo ruido? ¿Hay alguna forma de probarlo? " Es bastante intuitivo.
Los tres ejemplos de la literatura mencionados en la última oración del segundo párrafo fueron los tres que mencioné en mi respuesta a la pregunta vinculada .
Referencia
Jolliffe, IT (1982). Nota sobre el uso de componentes principales en regresión. Estadísticas aplicadas, 31 (3), 300–303. Recuperado de http://automatica.dei.unipd.it/public/Schenato/PSC/2010_2011/gruppo4-Building_termo_identification/IdentificazioneTermodinamica20072008/Biblio/Articoli/PCR%20vecchio%2082.pdf .
fuente
Si tiene R, hay un buen ejemplo en los
crabs
datos del paquete MASS.Más del 98% de la variación se "explica" por las dos primeras PC, pero de hecho si realmente había recopilado estas medidas y las estaba estudiando, la tercera PC es muy interesante, ya que está estrechamente relacionada con las especies de cangrejo. Pero está inundado por PC1 (que parece corresponder al tamaño del cangrejo) y PC2 (que parece corresponder al sexo del cangrejo).
fuente
Aquí hay dos ejemplos de mi experiencia (quimiometría, espectroscopía óptica / vibracional / Raman):
Recientemente tuve datos de espectroscopía óptica, donde> 99% de la variación total de los datos sin procesar se debió a cambios en la luz de fondo (foco más o menos intenso en el punto medido, lámparas fluorescentes encendidas / apagadas, más o menos nubes antes el sol). Después de la corrección de fondo con los espectros ópticos de los factores de influencia conocidos (extraídos por PCA en los datos en bruto; medidas adicionales tomadas para cubrir esas variaciones), el efecto que nos interesaba apareció en las PC 4 y 5. Las
PC 1 y 3 donde debido a otros efectos en la muestra medida, y la PC 2 se correlaciona con el calentamiento de la punta del instrumento durante las mediciones.
En otra medición, se utilizó una lente sin corrección de color para el rango espectral medido. La aberración cromática conduce a distorsiones en los espectros que explicaron ca. 90% de la varianza total de los datos preprocesados (capturados principalmente en la PC 1).
Para estos datos nos llevó bastante tiempo darnos cuenta de lo que había sucedido exactamente, pero cambiar a un objetivo mejor resolvió el problema para experimentos posteriores.
(No puedo mostrar detalles ya que estos estudios aún no se han publicado)
fuente
Me di cuenta de que las PC con baja varianza son más útiles cuando se realiza una PCA en una matriz de covarianza donde los datos subyacentes se agrupan o agrupan de alguna manera. Si uno de los grupos tiene una varianza promedio sustancialmente menor que los otros grupos, entonces las PC más pequeñas estarían dominadas por ese grupo. Sin embargo, es posible que tenga alguna razón para no querer tirar los resultados de ese grupo.
En finanzas, los rendimientos de las acciones tienen una desviación estándar anual de alrededor del 15-25%. Los cambios en los rendimientos de los bonos son históricamente una desviación estándar mucho más baja. Si realiza PCA en la matriz de covarianza de los rendimientos de las acciones y los cambios en los rendimientos de los bonos, las PC superiores reflejarán la variación de las acciones y las más pequeñas reflejarán las variaciones de los bonos. Si tira las PC que explican los enlaces, entonces podría tener algunos problemas. Por ejemplo, los bonos pueden tener características de distribución muy diferentes a las existencias (colas más delgadas, diferentes propiedades de varianza que varían en el tiempo, diferente reversión a la media, cointegración, etc.). Estos pueden ser muy importantes para modelar, dependiendo de las circunstancias.
Si realiza PCA en la matriz de correlación, es posible que vea más PC explicando los enlaces cerca de la parte superior.
fuente
En esta charla ( diapositivas ), los presentadores discuten su uso de PCA para discriminar entre las características de alta variabilidad y baja variabilidad.
En realidad, prefieren las características de baja variabilidad para la detección de anomalías, ya que un cambio significativo en una dimensión de baja variabilidad es un fuerte indicador de comportamiento anómalo. El ejemplo motivador que brindan es el siguiente:
fuente