El análisis funcional de componentes principales (FPCA) es algo con lo que me he tropezado y que nunca pude entender. ¿Que es todo esto?
Consulte "Una encuesta de análisis funcional de componentes principales" por Shang, 2011 , y estoy citando:
PCA se encuentra con serias dificultades para analizar datos funcionales debido a la "maldición de la dimensionalidad" (Bellman 1961). La "maldición de la dimensionalidad" se origina en la escasez de datos en el espacio de alta dimensión. Incluso si las propiedades geométricas de PCA siguen siendo válidas, e incluso si las técnicas numéricas ofrecen resultados estables, la matriz de covarianza de la muestra es a veces una estimación pobre de la matriz de covarianza de la población. Para superar esta dificultad, FPCA proporciona una forma mucho más informativa de examinar la estructura de covarianza de la muestra que PCA [...]
Simplemente no entiendo. ¿Cuál es el inconveniente que describe este artículo? ¿No se supone que PCA es el método definitivo para manejar situaciones como la "maldición de la dimensionalidad"?
Encuentro "PCA funcional" una noción innecesariamente confusa. No es una cosa separada, es PCA estándar aplicado a series de tiempo.
Definitivamente, aquí se puede aplicar el PCA estándar. Aparentemente, en su cita, al autor le preocupa que la serie de tiempo propia resultante sea demasiado ruidosa. ¡Esto puede suceder de hecho! Dos maneras obvias de lidiar con eso serían (a) suavizar la serie de tiempo propia resultante después de PCA, o (b) suavizar la serie de tiempo original antes de hacer PCA.
Los tutoriales sobre FPCA generalmente entran en largas discusiones sobre cómo generalizar PCA a los espacios funcionales de dimensionalidad infinita, pero la relevancia práctica de eso está totalmente fuera de mi alcance , ya que en la práctica los datos funcionales siempre están discretos para empezar.
Aquí hay una ilustración tomada del libro de texto "Análisis de datos funcionales" de Ramsay y Silverman, que parece ser la monografía definitiva sobre el "análisis de datos funcionales" que incluye FPCA:
Se puede ver que hacer PCA en los "datos discretizados" (puntos) produce prácticamente lo mismo que hacer FPCA en las funciones correspondientes en base a Fourier (líneas). Por supuesto, uno podría hacer primero el PCA discreto y luego ajustar una función en la misma base de Fourier; daría más o menos el mismo resultado.
fuente
Trabajé durante varios años con Jim Ramsay en la FDA, por lo que tal vez pueda agregar algunas aclaraciones a la respuesta de @ ameeba. Creo que en un nivel práctico, @amoeba tiene razón básicamente. Al menos, esa es la conclusión a la que finalmente llegué después de estudiar la FDA. Sin embargo, el marco de la FDA ofrece una visión teórica interesante de por qué suavizar los vectores propios es más que un simple error. Resulta que la optimización en el espacio funcional, sujeto a un producto interno que contiene una penalización de suavidad, proporciona una solución dimensional finita de splines base. La FDA utiliza el espacio de funciones de dimensiones infinitas, pero el análisis no requiere un número infinito de dimensiones. Es como el truco del núcleo en los procesos gaussianos o SVM. Es muy parecido al truco del núcleo, en realidad.
El trabajo original de Ramsay se ocupó de situaciones donde la historia principal en los datos es obvia: las funciones son más o menos lineales, o más o menos periódicas. Los vectores propios dominantes de PCA estándar solo reflejarán el nivel general de las funciones y la tendencia lineal (o funciones sinusoidales), básicamente diciéndonos lo que ya sabemos. Las características interesantes se encuentran en los residuos, que ahora son varios vectores propios de la parte superior de la lista. Y dado que cada vector propio posterior debe ser ortogonal a los anteriores, estas construcciones dependen cada vez más de los artefactos del análisis y menos de las características relevantes de los datos. En el análisis factorial, la rotación del factor oblicuo tiene como objetivo resolver este problema. La idea de Ramsay no era rotar los componentes, sino más bien cambiar la definición de ortogonalidad de manera que refleje mejor las necesidades del análisis. Esto significaba que si le preocupaban los componentes periódicos, se suavizaría sobre la base dere3- D re2
Uno podría objetar que sería más simple eliminar la tendencia con OLS y examinar los residuos de esa operación. Nunca estuve convencido de que el valor agregado de la FDA valiera la enorme complejidad del método. Pero desde un punto de vista teórico, vale la pena considerar los problemas involucrados. Todo lo que hacemos a los datos arruina las cosas. Los residuos de OLS están correlacionados, incluso cuando los datos originales eran independientes. El suavizado de una serie temporal introduce autocorrelaciones que no estaban en la serie sin formato. La idea de la FDA era asegurar que los residuos que obtuvimos de la tendencia inicial fueran adecuados para el análisis de interés.
Debe recordar que la FDA se originó a principios de los 80 cuando las funciones de spline estaban bajo estudio activo; piense en Grace Wahba y su equipo. Desde entonces, han surgido muchos enfoques para los datos multivariados, como SEM, análisis de curvas de crecimiento, procesos gaussianos, desarrollos adicionales en la teoría de procesos estocásticos y muchos más. No estoy seguro de que la FDA siga siendo el mejor enfoque para las preguntas que aborda. Por otro lado, cuando veo aplicaciones de lo que pretende ser la FDA, a menudo me pregunto si los autores realmente entienden lo que la FDA estaba tratando de hacer.
fuente
No estoy seguro acerca de FPCA, pero una cosa para recordar es que en dimensiones extremadamente altas, hay mucho más "espacio", y los puntos dentro del espacio comienzan a verse distribuidos uniformemente (es decir, todo está lejos de todo lo demás). En este punto, la matriz de covarianza comenzará a verse esencialmente uniforme y será muy sensible al ruido. Por lo tanto, se convierte en una mala estimación de la covarianza "verdadera". Quizás FPCA solucione esto de alguna manera, pero no estoy seguro.
fuente