¿Cuál es la diferencia entre el análisis de datos funcionales y el análisis de datos de alta dimensión

10

En la literatura estadística hay muchas referencias a " datos funcionales " (es decir, datos que son curvas) y, en paralelo, a " datos de alta dimensión " (es decir, cuando los datos son vectores de alta dimensión). Mi pregunta es sobre la diferencia entre los dos tipos de datos.

Cuando se habla de metodologías estadísticas aplicadas que se aplican en el caso 1 puede entenderse como una reformulación de metodologías del caso 2 a través de una proyección en un subespacio de dimensiones finitas de un espacio de funciones, puede ser polinomas, splines, wavelet, Fourier, ... . y traducirá el problema funcional en un problema vectorial dimensional finito (ya que en la matemática aplicada todo llega a ser finito en algún momento).

Mi pregunta es: ¿podemos decir que cualquier procedimiento estadístico que se aplique a datos funcionales también se puede aplicar (casi directamente) a datos de alta dimensión y que cualquier procedimiento dedicado a datos de alta dimensión se puede aplicar (casi directamente) a datos funcionales?

Si la respuesta es no, ¿puedes ilustrar?

EDITAR / ACTUALIZAR con la ayuda de la respuesta de Simon Byrne:

  • sparsity (suposición de S-escasa, balón y débil l p bola para p < 1 ) se utiliza como una suposición estructural en el análisis estadístico dimensional alta.lplpp<1
  • "suavidad" se utiliza como una suposición estructural en el análisis de datos funcionales.

Por otro lado, la transformada inversa de Fourier y la transformada inversa de wavelet están transformando la dispersión en suavidad, y la suavidad se transforma en la dispersión mediante la transformada wavelet y la transformada de Fourier. ¿Esto hace que la diferencia crítica mencionada por Simon no sea tan crítica?

robin girard
fuente
1
El suavizado es una gran parte del análisis de datos funcionales, y se puede convertir en un problema de estimación de vector mediante proyección sobre una base adecuada (por ejemplo, Fourier o wavelet), pero existen otros problemas en el análisis de datos funcionales que dependen de la estructura funcional que no No traducir tan fácilmente. Tomemos, por ejemplo, la regresión funcional donde esté interesado en predecir una respuesta funcional a partir de covariables.
vqv

Respuestas:

12

Los datos funcionales a menudo implican preguntas diferentes. He estado leyendo Análisis de datos funcionales, Ramsey y Silverman, y pasan muchas veces discutiendo el registro de curvas, las funciones de deformación y la estimación de derivados de curvas. Estas tienden a ser preguntas muy diferentes a las que hacen las personas interesadas en estudiar datos de alta dimensión.

usuario549
fuente
Completamente de acuerdo ! Las preguntas que se hacen son diferentes. El registro, el marcado, la estimación de derivados pueden surgir de la vista funcional. Esto me convence! Entonces, ¿el problema con los datos funcionales (tal como están en la literatura estadística) no sería que se definan en un conjunto continuo, sino más bien que se indexen en un conjunto ordenado?
robin girard
No es solo que esté definido en un conjunto ordenado. De lo contrario, ¿cómo distinguiría el análisis de series temporales del análisis de datos funcionales? Estoy de acuerdo con @ user549 en que se reduce a los tipos de preguntas que se hacen. Son específicos de la estructura de los datos.
vqv
15

Si y no. A nivel teórico, ambos casos pueden usar técnicas y marcos similares (un excelente ejemplo es la regresión del proceso gaussiano).

La diferencia crítica son los supuestos utilizados para evitar el sobreajuste (regularización):

  • En el caso funcional, por lo general, se asume cierta suavidad, en otras palabras, los valores que ocurren cerca uno del otro deberían ser similares de alguna manera sistemática. Esto lleva al uso de técnicas como splines, loess, procesos gaussianos, etc.

  • En el caso de alta dimensión, generalmente existe una suposición de escasez: es decir, solo un subconjunto de las dimensiones tendrá alguna señal. Esto conduce a técnicas que apuntan a identificar esas dimensiones (Lasso, LARS, antecedentes de losas y picos, etc.)

ACTUALIZAR:

Realmente no pensé en los métodos wavelet / Fourier, pero sí, las técnicas de umbral utilizadas para tales métodos apuntan a la escasez en el espacio proyectado. Por el contrario, algunas técnicas de alta dimensión suponen una proyección en una variedad de menor dimensión (por ejemplo, análisis de componentes principales), que es un tipo de suposición de suavidad.

Simon Byrne
fuente