Solo porque un corresponsal planteó una pregunta interesante sobre los métodos de cálculo de la autocorrelación, comencé a jugar con ella, casi sin ningún conocimiento sobre series de tiempo y autocorrelación.
El corresponsal organizó sus datos ( puntos de datos de una serie de tiempo) desplazados por un intervalo de tiempo cada uno, además de que tenía una matriz de datos (como lo entendí) donde la primera fila son los datos originales, la segunda fila los datos se desplazaron por unidad de tiempo, la siguiente fila por otra y así sucesivamente. También me di cuenta de esto pegando el extremo a la cola, haciendo conjuntos de datos "circulares".32 × 32 1
Luego, solo para ver lo que podría salir de él, calculé la matriz de correlación y de esto los componentes principales. Sorprendentemente, obtuve la imagen de una descomposición de frecuencia, y (nuevamente con otros datos) una frecuencia, digamos que con un período en los datos estaba en el primer componente principal, y que con cuatro períodos estaba en la segunda PC y así sucesivamente (Tengo PC "relevantes" con valor propio6 > 1) Primero pensé que esto depende de los datos de entrada, pero ahora supongo que es sistemáticamente así por la construcción especial del conjunto de datos con sus desplazamientos circulares (también conocido como matriz "Toeplitz"). Las rotaciones de la solución de PC para varimax u otros criterios de rotación dieron resultados ligeramente diferentes y posiblemente interesantes, pero en general parecen proporcionar una descomposición de frecuencia de este tipo.
Aquí hay un enlace a las imágenes que hice del conjunto de datos de puntos; las curvas simplemente están hechas de las cargas de la matriz de factores: una curva de las cargas en un factor. La curva de la primera PC1 debería mostrar las amplitudes más altas (aproximadamente porque tiene la mayor suma de cuadrados de carga)
Preguntas:
- Q1: ¿Es esta una característica por diseño? (de PCA con este tipo de conjunto de datos)
- P2: ¿Es este enfoque de alguna manera utilizable para un enfoque serio para el análisis de frecuencia / longitud de onda?
[actualización] aquí está el conjunto de datos (espero que salga copiable para usted)
-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4
-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5
-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3
0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1
2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0
4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2
6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4
5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6
3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5
1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3
1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1
0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1
-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0
-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2
-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3
0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1
3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0
5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3
7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5
6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7
7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6
5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7
4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5
3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4
2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3
3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2
5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3
4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5
3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4
2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3
3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2
4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3
fuente
Respuestas:
Permítanme convertir mi comentario anterior en una respuesta.
¿Se imagina que las filas en su matriz de datos son las variables o las muestras? Asumiré que son muestras: es decir, usted tiene series de tiempo diferentes (muestras).n = 32
Entonces, si todas las filas son idénticas, pero solo se desplazan circularmente por posición cada una, entonces la matriz de Gram de sus datos que consta de productos de punto entre todos los pares de filas tendrá la estructura de Toeplitz: valores altos cercanos a diagonal y gradualmente disminuyendo a cero valores lejos de ella. Las matrices de Toeplitz tienen modos de Fourier consecutivos ya que sus vectores propios (y los vectores propios de la matriz de Gram son componentes principales, hasta la escala), así que sí a su Q1: no es sorprendente que obtenga ondas sinusoidales de frecuencias crecientes como PC.1 n × nn = 32 1 n × n
No tengo idea si puede ser útil (Q2). En mi experiencia, tiende a aparecer como un artefacto molesto. Es decir, las personas tienen algunos datos, obtienen algo parecido a los modos Fourier de PCA y comienzan a preguntarse qué podrían significar, mientras que simplemente se deben a algunos cambios de tiempo en la serie de tiempo original.
fuente