Propiedades de PCA para observaciones dependientes

Usualmente usamos PCA como técnica de reducción de dimensionalidad para datos donde se supone que los casos son iid

Pregunta: ¿Cuáles son los matices típicos en la aplicación de PCA para datos dependientes que no son iid? ¿Qué propiedades agradables / útiles de PCA que se mantienen para los datos de iid se ven comprometidas (o se pierden por completo)?

Por ejemplo, los datos podrían ser una serie temporal multivariada en cuyo caso podría esperarse la autocorrelación o la heterocedasticidad condicional autorregresiva (ARCH).

Ya se han hecho varias preguntas relacionadas sobre la aplicación de PCA a datos de series temporales, por ejemplo, 1 , 2 , 3 , 4 , pero estoy buscando una respuesta más general e integral (sin la necesidad de ampliar mucho en cada punto individual).

Editar: Como señaló @ttnphns, la PCA en sí no es un análisis inferencial. Sin embargo, uno podría estar interesado en el rendimiento de generalización de PCA, es decir, centrarse en la contraparte de la población de la PCA de muestra. Por ejemplo, como está escrito en Nadler (2008) :

Suponiendo que los datos dados son una muestra finita y aleatoria de una distribución (generalmente desconocida), una pregunta teórica y práctica interesante es la relación entre los resultados de PCA de la muestra calculados a partir de datos finitos y los del modelo de población subyacente.

Referencias

Nadler, Booz. "Resultados de aproximación de muestra finita para el análisis de componentes principales: un enfoque de perturbación matricial". The Annals of Statistics (2008): 2791-2817.

time-series pca non-independent iid Richard Hardy
fuente

Solo por nota. PCA en sí no es un análisis inferencial. Es una transformación del conjunto de datos multivariados de números; su núcleo es solo svd o descomposición propia. Por lo tanto, no hace suposición de independencia de observación. Las suposiciones surgen cuando usamos PCA como herramienta estadística para analizar muestras de poblaciones. Pero no son suposiciones de PCA. Por ejemplo, la prueba de esfericidad para decidir si la PCA está justificada para reducir los datos requiere la independencia, y la prueba puede parecer una prueba de suposición "dentro de la PCA", pero en realidad es una prueba "externa".

ttnphns

@ttnphns, muy buenos puntos, gracias. Si ve una forma ordenada de editar mi publicación, siéntase libre de hacerlo. Lo pensaré yo también.

Richard Hardy el

Richard, tu pregunta es buena e importante (+1). Tal vez prefiera volver a redactarlo un poco como "Usualmente usamos PCA como una reducción de dimensionalidad para los datos donde se suponen casos ... ¿Cuáles son los matices típicos en la aplicación de PCA para datos de series temporales donde los casos (tiempo puntos) son lag-interdependientes ...? "

ttnphns

@amoeba, cierto. Pero casi nunca nos detenemos en obtener las cargas de las PC. En los pasos que comúnmente siguen a la PCA, ¿qué deberíamos tener en cuenta en virtud de la no identidad? Espero que una respuesta sea mejor que la pregunta (en su formulación actual). Si lo miras con soltura / creatividad, tal vez puedas sacar algunos buenos puntos.

Richard Hardy

La PCA simple respeta solo las asociaciones "horizontales" (es decir, entre columnas) e ignora las "verticales" (entre casos): la matriz de covarianza de las columnas es la misma si baraja el orden de los casos. Es cuestión de gustos si esto puede llamarse "no se hacen suposiciones para relaciones seriales de casos" o "se hacen suposiciones para casos independientes". La suposición de iid es la predeterminada en el análisis de datos, por lo que los métodos que simplemente no prestan especial atención al orden de los casos, como PCA, podrían ser imputados como "soporte silencioso" para la suposición de iid.

ttnphns

Presumiblemente, podría agregar el componente de tiempo como una característica adicional a sus puntos muestreados, ¿y ahora son iid? Básicamente, los puntos de datos originales están condicionados por el tiempo:

pags (X_{yo} ∣ t_{yo}) \neq pags (X_{yo})

$p(\mathbf{x}_i \mid t_i) \ne p(\mathbf{x}_i)$

$\mathbf{x}_i' = \{\mathbf{x}_i, t_i\}$

pags (X_{yo}^{'} ∣ t_{yo}) = pags (X_{yo}^{'})

$p(\mathbf{x}'_i \mid t_i) = p(\mathbf{x}'_i)$

... y las muestras de datos ahora son mutuamente independientes.

En la práctica, al incluir el tiempo como una característica en cada punto de datos, PCA podría tener como resultado que un componente simplemente apunte a lo largo del eje de la característica de tiempo. Pero si alguna función está correlacionada con la función de tiempo, un componente puede consistir en una o más de estas funciones, así como la función de tiempo.

Hugh Perkins
fuente

Gracias por la respuesta. Ese sería un caso muy especial donde el tiempo entra linealmente. Un fenómeno más extendido es, por ejemplo, la autocorrelación donde el tiempo en sí mismo no juega un papel como característica.

Richard Hardy

x_{t}

$x_t$

θ

$\theta$

x_{t - 1}

$x_{t-1}$

x_{t}

$x_t$

x_{t - 1}

$x_{t-1}$

θ

$\theta$

x_{t - 1}

$x_{t-1}$

x_{t - 1}

$x_{t-1}$

Propiedades de PCA para observaciones dependientes

Respuestas: