Estoy usando PCA para analizar varias series de tiempo relacionadas espacialmente, y parece que el primer vector propio corresponde a la derivada de la tendencia media de la serie (ejemplo ilustrado a continuación). Tengo curiosidad por saber por qué el primer vector propio se relaciona con la derivada de la tendencia en oposición a la tendencia misma.
Los datos se organizan en una matriz donde las filas son las series de tiempo para cada entidad espacial y las columnas (y, a su vez, las dimensiones en el PCA) son los años (es decir, en el ejemplo a continuación, 10 series de tiempo de 7 años). Los datos también están centrados en la media antes de la PCA.
Stanimirovic et al., 2007 llegan a la misma conclusión, pero su explicación está un poco más allá de mi comprensión del álgebra lineal.
[Actualización]: agregar datos como se sugiere.
[Actualización2] - RESPONDIDO. Encontré que mi código estaba usando incorrectamente la transposición de la matriz de vectores propios al trazar resultados ( excel_walkthrough ) (gracias @amoeba). Parece que es solo una coincidencia que exista la relación transposición-vector propio / derivada para esta configuración particular. Como se describe matemáticamente e intuitivamente en esta publicación, el primer vector propio de hecho se relaciona con la tendencia subyacente y no con su derivada .
fuente
Respuestas:
Ignoremos el centrado de la media por un momento. Una forma de entender los datos es ver cada serie de tiempo como aproximadamente un múltiplo fijo de una "tendencia" general, que en sí misma es una serie de tiempox=(x1,x2,…,xp)′ (con p=7 El número de períodos de tiempo). Me referiré a esto a continuación como "tener una tendencia similar".
Escrituraϕ=(ϕ1,ϕ2,…,ϕn)′ para esos múltiplos (con n=10 el número de series de tiempo), la matriz de datos es aproximadamente
Los valores propios de PCA (sin centrado medio) son los valores propios de
porqueϕ′ϕ Es solo un número. Por definición, para cualquier valor propioλ y cualquier vector propio correspondiente β ,
donde una vez más el númerox′β se puede conmutar con el vector x . Dejarλ ser el valor propio más grande, entonces (a menos que todas las series de tiempo sean idénticamente cero en todo momento) λ>0 .
Desde el lado derecho de(1) es un múltiplo de x y el lado izquierdo es un múltiplo distinto de ceroβ , el vector propio β debe ser un múltiplo de x , también.
En otras palabras, cuando un conjunto de series de tiempo se ajusta a este ideal (que todos son múltiplos de una serie de tiempo común), entonces
Hay un valor propio positivo único en la PCA.
Hay un espacio propio correspondiente único que abarca la serie temporal comúnx .
Coloquialmente, (2) dice que "el primer vector propio es proporcional a la tendencia".
"Centrado medio" en PCA significa que las columnas están centradas. Dado que las columnas corresponden a los tiempos de observación de las series de tiempo, esto equivale a eliminar la tendencia de tiempo promedio al establecer por separado el promedio de todosn series temporales a cero en cada una de las p veces. Por lo tanto, cada serie de tiempoϕix es reemplazado por un residual (ϕi−ϕ¯)x , dónde ϕ¯ es la media de ϕi . Pero esta es la misma situación que antes, simplemente reemplazando elϕ por sus desviaciones de su valor medio.
Por el contrario, cuando hay un valor propio único muy grande en el PCA, podemos retener un único componente principal y aproximarnos de cerca a la matriz de datos originalX . Por lo tanto, este análisis contiene un mecanismo para verificar su validez:
Esta conclusión se aplica tanto a PCA en los datos sin procesar como a PCA en los datos centrados en la media (columna).
Permíteme ilustrar. Al final de esta publicación hay unx y ϕ son cualitativamente probables los que se muestran en la pregunta. El código genera dos filas de gráficos: un "gráfico de pantalla" que muestra los valores propios ordenados y un gráfico de los datos utilizados. Aquí hay un conjunto de resultados.
R
código para generar datos aleatorios de acuerdo con el modelo utilizado aquí y analizar su primera PC. Los valores deLos datos en bruto aparecen en la esquina superior derecha. El diagrama de pantalla en la esquina superior izquierda confirma que el valor propio más grande domina a todos los demás. Por encima de los datos, he trazado el primer vector propio (primer componente principal) como una línea negra gruesa y la tendencia general (las medias por tiempo) como una línea roja discontinua. Son prácticamente coincidentes.
Los datos centrados aparecen en la esquina inferior derecha. Ahora la "tendencia" en los datos es una tendencia en la variabilidad en lugar de nivel. Aunque el diagrama de pantalla está lejos de ser agradable, el valor propio más grande ya no predomina, sin embargo, el primer vector propio hace un buen trabajo al rastrear esta tendencia.
fuente
La derivada de los datos (~ primera diferencia) elimina las dependencias puntuales en los datos que se deben a la no estacionariedad (cf. ARIMA). Lo que luego recupera es aproximadamente la señal estacionaria estable, que supongo que la SVD se está recuperando.
fuente