Entiendo que el Análisis de componentes principales (PCA) se puede aplicar básicamente para datos de sección transversal. ¿Se puede utilizar PCA para datos de series temporales de manera efectiva especificando el año como variable de serie temporal y ejecutando PCA normalmente? He descubierto que PCA dinámico funciona para datos de panel y la codificación en Stata está diseñada para datos de panel y no series de tiempo. ¿Existe algún tipo específico de PCA que funcione con datos de series temporales?
Actualizar. Déjame explicarte en detalle.
Actualmente estoy construyendo un índice para Infraestructura en India con variables como la longitud de la carretera, la longitud de la ruta ferroviaria, la capacidad de generación de electricidad, el número de suscriptores telefónicos, etc. Tengo 12 variables a través de 22 años para 1 país. Aunque he revisado documentos que aplican PCA en series temporales e incluso datos de panel, PCA está diseñado para datos de sección transversal que asume su suposición. El panel y los datos de sección transversal lo violan y PCA no tiene en cuenta la dimensión de la serie temporal en él. He visto que la PCA dinámica se aplica solo a los datos del panel. ¿Quiero saber si hay un PCA específico que se aplica en series de tiempo o ejecuta un PCA estático con año definido como variable de serie de tiempo?
fuente
Respuestas:
Un enfoque podría ser tomar las diferencias por primera vez de sus 12 variables para garantizar la estacionariedad. Luego calcule la matriz de covarianza y realice PCA en ella. Esto será una especie de PCA promedio durante todo el período de tiempo, y no dirá nada acerca de cómo se afectan entre sí los diferentes intervalos de tiempo. Pero podría ser un buen punto de partida.12 × 12
Si también está interesado en descomponer el dominio del tiempo, verificaría SSA como se sugiere en los comentarios.
Cuando las series son (asumidas) estacionarias, una matriz de covarianza simple es significativa. Si sus datos están integrados en un orden de 1 o superior, como sospecho que podrían estar, la estimación de una matriz de covarianza única no arrojará resultados consistentes. Un paseo aleatorio es por ejemplo integrada de orden 1, y la covarianza estimada de dos caminos aleatorios no dice nada acerca de su movimiento conjunto, aquí cointegración se requiere un análisis.
Como se sugiere en los comentarios, a la PCA en sí misma no le importa la estacionariedad, por lo que puede alimentar a la PCA con una matriz semi-definida positiva y la descomposición de la PC estará bien en un sentido de PCA.
Pero si su matriz de covarianza estimada no representa nada significativo sobre los datos, entonces PCA, por supuesto, tampoco lo hará.
fuente
Sí, PCA en series temporales se realiza todo el tiempo en ingeniería financiera (finanzas cuantitativas) y neurología.
En neurología, PCA se ejecuta en series de tiempo para potenciales de acción en diferentes bandas de longitud de onda obtenidas de un EEG. Transformar los potenciales de acción en vectores de puntuación de PC ortogonales (no correlacionados) e ingresar las PC en otros análisis es el medio principal por el cual se aumentó el poder estadístico en el modelado estadístico genético de rasgos complejos para la genética del comportamiento (ya que los fenotipos, por ejemplo, bipolares, novedosos búsqueda, esquizotípica, estenosis a menudo se superponen). Los grandes estudios de gemelos genéticos australianos fueron fundamentales para analizar estos rasgos superpuestos en la genética del comportamiento, porque si hay diferencias de enfermedad entre gemelos idénticos que se crían juntos (crecen en el mismo hogar), la inferencia causal puede apuntar a la exposición en diferentes entornos cuando eran mayores en lugar de su genética idéntica.
fuente