Usualmente usamos PCA como técnica de reducción de dimensionalidad para datos donde se supone que los casos son iid
Pregunta: ¿Cuáles son los matices típicos en la aplicación de PCA para datos dependientes que no son iid? ¿Qué propiedades agradables / útiles de PCA que se mantienen para los datos de iid se ven comprometidas (o se pierden por completo)?
Por ejemplo, los datos podrían ser una serie temporal multivariada en cuyo caso podría esperarse la autocorrelación o la heterocedasticidad condicional autorregresiva (ARCH).
Ya se han hecho varias preguntas relacionadas sobre la aplicación de PCA a datos de series temporales, por ejemplo, 1 , 2 , 3 , 4 , pero estoy buscando una respuesta más general e integral (sin la necesidad de ampliar mucho en cada punto individual).
Editar: Como señaló @ttnphns, la PCA en sí no es un análisis inferencial. Sin embargo, uno podría estar interesado en el rendimiento de generalización de PCA, es decir, centrarse en la contraparte de la población de la PCA de muestra. Por ejemplo, como está escrito en Nadler (2008) :
Suponiendo que los datos dados son una muestra finita y aleatoria de una distribución (generalmente desconocida), una pregunta teórica y práctica interesante es la relación entre los resultados de PCA de la muestra calculados a partir de datos finitos y los del modelo de población subyacente.
Referencias
- Nadler, Booz. "Resultados de aproximación de muestra finita para el análisis de componentes principales: un enfoque de perturbación matricial". The Annals of Statistics (2008): 2791-2817.
fuente
Respuestas:
Presumiblemente, podría agregar el componente de tiempo como una característica adicional a sus puntos muestreados, ¿y ahora son iid? Básicamente, los puntos de datos originales están condicionados por el tiempo:
... y las muestras de datos ahora son mutuamente independientes.
En la práctica, al incluir el tiempo como una característica en cada punto de datos, PCA podría tener como resultado que un componente simplemente apunte a lo largo del eje de la característica de tiempo. Pero si alguna función está correlacionada con la función de tiempo, un componente puede consistir en una o más de estas funciones, así como la función de tiempo.
fuente