¿Qué está haciendo PCA con datos autocorrelacionados?

9

Solo porque un corresponsal planteó una pregunta interesante sobre los métodos de cálculo de la autocorrelación, comencé a jugar con ella, casi sin ningún conocimiento sobre series de tiempo y autocorrelación.

El corresponsal organizó sus datos ( puntos de datos de una serie de tiempo) desplazados por un intervalo de tiempo cada uno, además de que tenía una matriz de datos (como lo entendí) donde la primera fila son los datos originales, la segunda fila los datos se desplazaron por unidad de tiempo, la siguiente fila por otra y así sucesivamente. También me di cuenta de esto pegando el extremo a la cola, haciendo conjuntos de datos "circulares".32 × 32 13232×321

Luego, solo para ver lo que podría salir de él, calculé la matriz de correlación y de esto los componentes principales. Sorprendentemente, obtuve la imagen de una descomposición de frecuencia, y (nuevamente con otros datos) una frecuencia, digamos que con un período en los datos estaba en el primer componente principal, y que con cuatro períodos estaba en la segunda PC y así sucesivamente (Tengo PC "relevantes" con valor propio6 > 1326 6>1) Primero pensé que esto depende de los datos de entrada, pero ahora supongo que es sistemáticamente así por la construcción especial del conjunto de datos con sus desplazamientos circulares (también conocido como matriz "Toeplitz"). Las rotaciones de la solución de PC para varimax u otros criterios de rotación dieron resultados ligeramente diferentes y posiblemente interesantes, pero en general parecen proporcionar una descomposición de frecuencia de este tipo.

Aquí hay un enlace a las imágenes que hice del conjunto de datos de puntos; las curvas simplemente están hechas de las cargas de la matriz de factores: una curva de las cargas en un factor. La curva de la primera PC1 debería mostrar las amplitudes más altas (aproximadamente porque tiene la mayor suma de cuadrados de carga)32

Preguntas:

  • Q1: ¿Es esta una característica por diseño? (de PCA con este tipo de conjunto de datos)
  • P2: ¿Es este enfoque de alguna manera utilizable para un enfoque serio para el análisis de frecuencia / longitud de onda?

[actualización] aquí está el conjunto de datos (espero que salga copiable para usted)

-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4
-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5
-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3
0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1
2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0
4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2
6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4
5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6
3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5
1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3
1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1
0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1
-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0
-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2
-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3
0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1
3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0
5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3
7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5
6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7
7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6
5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7
4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5
3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4
2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3
3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2
5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3
4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5
3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4
2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3
3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2
4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3
Yelmos de Gottfried
fuente
Gracias @amoeba y por la gran cantidad de edición. Solo había visto dos errores que quería editar más tarde, ¡la pregunta se ve mucho mejor ahora!
Gottfried Helms

Respuestas:

4

Permítanme convertir mi comentario anterior en una respuesta.

¿Se imagina que las filas en su matriz de datos son las variables o las muestras? Asumiré que son muestras: es decir, usted tiene series de tiempo diferentes (muestras).n=32

Entonces, si todas las filas son idénticas, pero solo se desplazan circularmente por posición cada una, entonces la matriz de Gram de sus datos que consta de productos de punto entre todos los pares de filas tendrá la estructura de Toeplitz: valores altos cercanos a diagonal y gradualmente disminuyendo a cero valores lejos de ella. Las matrices de Toeplitz tienen modos de Fourier consecutivos ya que sus vectores propios (y los vectores propios de la matriz de Gram son componentes principales, hasta la escala), así que a su Q1: no es sorprendente que obtenga ondas sinusoidales de frecuencias crecientes como PC.1 n × nn=321n×norte

No tengo idea si puede ser útil (Q2). En mi experiencia, tiende a aparecer como un artefacto molesto. Es decir, las personas tienen algunos datos, obtienen algo parecido a los modos Fourier de PCA y comienzan a preguntarse qué podrían significar, mientras que simplemente se deben a algunos cambios de tiempo en la serie de tiempo original.

ameba
fuente
Bueno, muy bien, gracias! Sí, he pensado en los datos a lo largo de las filas. El segundo trimestre viene también porque nunca he entendido hasta hoy cómo funciona exactamente el análisis de Fourier, y por accidente, esto podría haber sido un paso para obtener cierta intuición (pero esta vaga esperanza realmente parece ser infructuosa aquí ...)
Gottfried Helms
Por cierto, ¿te importaría compartir tus series temporales de 32 valores? Me gustaría insertar una figura que muestre la matriz de Gram, y podría hacerlo directamente con sus datos.
ameba
¿Viste el enlace en mi pregunta? Redirige a una página web que hice usando exce.l Tiene 4 o 5 subpáginas, que pueden seleccionarse mediante "firefox" en mi instalación mediante un clic en la barra de pestañas en la parte inferior de la pantalla. La primera subpágina muestra la lista de datos. Sin embargo, verticalmente: se debe tomar como primera fila en una nueva tabla y agregar 31 filas mientras se desplaza en bicicleta hacia la derecha. Si eso es inconveniente, también puedo agregar los datos a mi pregunta ...
Gottfried Helms
¡Vaya, no me di cuenta de que era una hoja de cálculo completa en línea, y no solo una captura de pantalla! Gracias.
ameba