¿Cómo interpretar PCA en datos de series temporales?

Estoy tratando de entender el uso de PCA en un artículo reciente de la revista titulado "Mapeo de la actividad cerebral a escala con la computación en clúster" Freeman et al., 2014 (pdf gratuito disponible en el sitio web del laboratorio ). Utilizan PCA en datos de series temporales y utilizan los pesos de PCA para crear un mapa del cerebro.

Los datos son datos de imágenes promedio de prueba, almacenados como una matriz (llamada en el papel) con vóxeles (o ubicaciones de imágenes en el cerebro) puntos de tiempo (la longitud de un solo estimulación al cerebro). $\hat {\mathbf Y}$ $n$ $\times \hat t$

Usan la SVD que resulta en ( indica la transposición de la matriz ).

\hat{Y} = {U S V}^{⊤}

$\hat {\mathbf Y} = \mathbf{USV}^\top$

V^{⊤}

$\mathbf V^\top$

V

$\mathbf V$

Los autores afirman que

Los componentes principales (las columnas de ) son vectores de longitud , y las puntuaciones (las columnas de ) son vectores de longitud (número de vóxeles), que describen la proyección de cada vóxel en la dirección dado por el componente correspondiente, formando proyecciones en el volumen, es decir, mapas de todo el cerebro. $\mathbf V$ $\hat t$ $\mathbf U$ $n$

Entonces las PC son vectores de longitud . ¿Cómo puedo interpretar que el "primer componente principal explica la mayor variación" como se expresa comúnmente en los tutoriales de PCA? Comenzamos con una matriz de muchas series de tiempo altamente correlacionadas: ¿cómo explica una sola serie de tiempo de PC la varianza en la matriz original? Entiendo toda la "rotación de una nube de puntos gaussiana al eje más variado", pero no estoy seguro de cómo se relaciona esto con las series de tiempo. ¿Qué quieren decir los autores con la dirección cuando dicen: "las puntuaciones (las columnas de ) son vectores de longitud $\hat t$ $\mathbf U$ $n$ (número de vóxeles), que describe la proyección de cada vóxel en la dirección dada por el componente correspondiente "? ¿Cómo puede un curso de tiempo del componente principal tener una dirección?

Para ver un ejemplo de la serie temporal resultante de combinaciones lineales de los componentes principales 1 y 2 y el mapa cerebral asociado, vaya al siguiente enlace y pase el mouse sobre los puntos en el diagrama XY.

Freman y col.

Mi segunda pregunta está relacionada con las trayectorias (espacio-estatales) que crean utilizando los puntajes de los componentes principales.

Estos se crean tomando los primeros 2 puntajes (en el caso del ejemplo "optomotor" que describí anteriormente) y proyectando los ensayos individuales (utilizados para crear la matriz promediada de ensayos descrita anteriormente) en el subespacio principal mediante la ecuación:

J = U^{⊤} Y .

$\mathbf J = \mathbf U^\top \mathbf Y.$

Como puede ver en las películas vinculadas, cada rastro en el espacio de estado representa la actividad del cerebro en su conjunto.

¿Alguien puede proporcionar la intuición de lo que significa cada "fotograma" de la película de espacio de estado, en comparación con la figura que asocia la gráfica XY de las puntuaciones de las 2 primeras PC. ¿Qué significa en un "marco" dado que 1 prueba del experimento esté en 1 posición en el espacio de estado XY y que otra prueba esté en otra posición? ¿Cómo se relacionan las posiciones de la trama XY en las películas con las principales trazas de componentes en la figura vinculada mencionada en la primera parte de mi pregunta?

Freeman y col.

time-series pca state-space-models neuroimaging neuroscience statHacker
fuente

+1 Edité su pregunta, eche un vistazo a cómo se pueden formatear ecuaciones de texto aquí. Aparte de eso, conozco el documento bastante bien, por lo que responderé más tarde.

ameba dice Reinstate Monica

Esto no es exactamente lo que quiere el OP, pero podría ser útil para interpretar los componentes principales cuando se toman de datos de series de tiempo, ya que hago esto todo el tiempo. Por lo general, me gusta interpretar PCA como una expansión de Karhunen-Loève: expresar una serie temporal dada, (las diferentes series temporales a las que aplica PCA), como una combinación lineal de series temporales no correlacionadas (es decir, los componentes principales). Los pesos de cada serie de tiempo en este caso están dados por los vectores propios obtenidos de la matriz de covarianza.

X_{t}

$X_t$

Néstor

(Vea esto para una explicación más profunda de mi punto: astro.puc.cl/~nespino/files/Ch2_PCA_nespinoza.pdf )

Néstor

Agregué a tu pregunta algunas capturas de pantalla a las que te referías.

ameba dice Reinstate Monica

¿Cómo agregaste las fotos?

statHacker

Respuestas:

P1: ¿Cuál es la conexión entre las series temporales de PC y la "variación máxima"?

Los datos que están analizando son puntos de datos para cada una de las neuronas, por lo que uno puede pensar en eso como puntos de datos en el espacio -dimensional . Es "una nube de puntos", por lo que realizar PCA equivale a encontrar direcciones de máxima varianza, como bien sabe. Prefiero llamar a estas direcciones (que son vectores propios de la matriz de covarianza) "ejes principales", y las proyecciones de los datos en estas direcciones "componentes principales". $\hat t$ $n$ $\hat t$ $n$ $\mathbb R^n$

Al analizar series de tiempo, la única adición a esta imagen es que los puntos están ordenados de manera significativa o numerados (del al ), en lugar de ser simplemente una colección de puntos sin ordenar . Lo que significa que si tomamos la tasa de activación de una sola neurona (que es una coordenada en ), entonces sus valores se pueden trazar en función del tiempo. Del mismo modo, si tomamos una PC (que es una proyección de en alguna línea), entonces también tiene valores y se puede trazar en función del tiempo. Entonces, si las características originales son series temporales, las PC también son series temporales. $1$ $\hat t$ $\mathbb R^n$ $\mathbb R^n$ $\hat t$

Estoy de acuerdo con la interpretación anterior de @ Nestor: cada característica original puede verse como una combinación lineal de PC, y como las PC no están correlacionadas entre sí, uno puede pensar en ellas como funciones básicas en las que se descomponen las características originales. Es un poco como el análisis de Fourier, pero en lugar de tomar una base fija de senos y cosenos, estamos encontrando la base "más apropiada" para este conjunto de datos en particular, en el sentido de que la primera PC representa la mayoría de las variaciones, etc.

"Tener en cuenta la mayoría de las variaciones" aquí significa que si solo toma una función básica (serie temporal) e intenta aproximar todas sus funciones con ella, entonces la primera PC hará el mejor trabajo. Entonces, la intuición básica aquí es que la primera PC es una serie temporal de función básica que se adapta a todas las series temporales disponibles, etc.

¿Por qué es este pasaje en Freeman et al. ¿muy confuso?

Freeman y col. analice la matriz de datos con variables (es decir, neuronas) en filas (!), no en columnas. Tenga en cuenta que restan los medios de fila, lo que tiene sentido ya que las variables generalmente se centran antes de PCA. Luego realizan SVD:Usando la terminología que defiendo anteriormente, las columnas de son ejes principales (direcciones en ) y las columnas de son componentes principales (series temporales de longitud ). $\hat{\mathbf Y}$

\hat{Y} = {U S V}^{⊤} .

$\hat {\mathbf Y} = \mathbf{USV}^\top.$

U

$\mathbf U$

R^{n}

$\mathbb R^n$

S V

$\mathbf{SV}$

\hat{t}

$\hat t$

La oración que citó de Freeman et al. es bastante confuso de hecho:

$\mathbf V$ $\hat t$ $\mathbf U$ $n$

Primero, las columnas de no son PC, sino PC escaladas a la norma de la unidad. Segundo, las columnas de NO son puntajes, porque "puntajes" generalmente significa PC. Tercero, la "dirección dada por el componente correspondiente" es una noción críptica. Yo creo que invertir la imagen aquí y sugieren que pensar en puntos en espacio dimensional, de modo que ahora cada neurona es un punto de datos (y no una variable). Conceptualmente suena como un gran cambio, pero matemáticamente casi no hace ninguna diferencia, con el único cambio que los ejes principales y los componentes principales [norma de la unidad] cambian de lugar. En este caso, mis PC desde arriba ( long time series) se convertirán en ejes principales, es decir $\mathbf V$ $\mathbf U$ $n$ $\hat t$ $\hat t$ direcciones , y puede considerarse como proyecciones normalizadas en estas direcciones (¿puntuaciones normalizadas?). $\mathbf U$

Esto me parece muy confuso, por lo que sugiero ignorar su elección de palabras, pero solo mirar las fórmulas. A partir de este momento seguiré usando los términos como me gustan, no como Freeman et al. usalos, usalos a ellos.

P2: ¿Cuáles son las trayectorias del espacio de estado?

Toman datos de prueba única y los proyectan en los dos primeros ejes principales, es decir, las dos primeras columnas de ). Si lo hiciera con los datos originales , obtendría dos primeros componentes principales. Una vez más, la proyección en un eje principal es un componente principal, es decir, un -long series de tiempo. $\mathbf U$ $\hat{\mathbf Y}$ $\hat t$

Si lo hace con algunos datos de prueba única , nuevamente obtendrá dos - series de tiempo largas. En la película, cada línea individual corresponde a dicha proyección: la coordenada x evoluciona según la PC1 y la coordenada y según la PC2. Esto es lo que se llama "espacio de estado": PC1 trazada contra PC2. El tiempo pasa a medida que el punto se mueve. $\mathbf Y$ $\hat t$

Cada línea en la película se obtiene con un único ensayo diferente . $\mathbf Y$

ameba dice Reinstate Monica
fuente

Hice esta pregunta como un comentario a continuación, pero ¿tal vez @amoeba pueda ayudar? ¿Es el primer vector de ponderaciones de componentes principales solo la serie temporal media que se colapsa en todos los vóxeles? Si fuera la media, daría como resultado que las puntuaciones más pequeñas se ajustaran a los rastreos de datos individuales. -

statHacker

La respuesta corta es no , generalmente no es la serie temporal media, aunque en muchos casos puede ser bastante cercana. Como ejemplo, piense en una colección de series de tiempo que son todas líneas rectas con diferentes pendientes (positivas y negativas) que pasan por cero. Entonces, la serie temporal media es alrededor del cero constante. Pero la primera PC será una línea lineal fuerte. Por cierto, creo que esta es una excelente pregunta y si desea más detalles y / o cifras, hágala (nuevamente) como una pregunta por separado. Solo asegúrese de no duplicar ninguna parte de esta pregunta sobre Freeman et al .; hazlos separados.

ameba dice Reinstate Monica

(o cualquier otra persona interesada en una respuesta): con respecto a la Q2, ¿qué quiere decir con "proyectar [cada prueba] en las dos primeras [PC]". Matemáticamente es muy claro que U es un vector de longitud n vóxeles, y cuando la matriz se multiplica por la longitud n matriz Y, logramos una reducción de la dimensionalidad en las primeras 2 PC. ¿Puede proporcionar intuición con respecto a que U sea la matriz de puntajes (es decir, la distancia de cada vóxel desde las 2 primeras PC)? ¿Puedo pensar en cada punto de tiempo de J como el promedio de 2-d de la proyección de cada posición de vóxeles en la gráfica de 2 dimensiones de la primera imagen de arriba?

statHacker

U

$U$

U

$U$

S V

$\mathbf{SV}$

$p$ $\bf V$ $\hat t$

$\bf \hat Y$ $n \times \hat t$ $\bf U$ $n \times n$ $\bf V$ $\hat t \times \hat t$

Con respecto a la segunda pregunta. La ecuación dada es

$\bf J = \bf U^T Y$

$\bf J$ $\times t$

$t \ne \hat t$ $\bf J$

$\hat t$

No he tratado con la metodología de coloración antes, y me tomaría un tiempo antes de confiar en comentar sobre ese aspecto. El comentario sobre la similitud con la Fig. 4c me pareció confuso ya que la coloración se obtiene allí por regresión per-voxel. Mientras que en la Fig. 6 cada traza es un artefacto de imagen completa. A menos que lo aclare, creo que es la dirección del estímulo durante ese segmento de tiempo según el comentario en la Figura.

conjeturas
fuente

La primera figura anterior se refiere a un experimento con el mismo estímulo visual presentado cada vez. Hay una figura y una película diferentes para esos datos. La segunda figura anterior se refiere a un experimento diferente en el que los estímulos son estímulos visuales con diferentes orientaciones, las trazas en la segunda figura anterior están coloreadas para corresponder simplemente a diferentes orientaciones de estímulos visuales.

statHacker

Y

$\mathbf Y$

\hat{T}

$\hat {\mathbf T}$

\n

$\n$

V

$\mathbf V$

S

$\mathbf S$

J = U^{⊤} Y .

$\mathbf J = \mathbf U^\top \mathbf Y.$

U

$\mathbf U$

He reorganizado las cosas. Disculpas, fue un sobrante de antes de resolver algo más.

conjeturas

Gracias por toda tu ayuda. ¿Es el primer vector de ponderaciones de componentes principales solo la serie temporal media que se colapsa en todos los vóxeles? Si fuera la media, daría como resultado que las puntuaciones más pequeñas se ajustaran a los rastreos de datos individuales.

statHacker