En la literatura estadística hay muchas referencias a " datos funcionales " (es decir, datos que son curvas) y, en paralelo, a " datos de alta dimensión " (es decir, cuando los datos son vectores de alta dimensión). Mi pregunta es sobre la diferencia entre los dos tipos de datos.
Cuando se habla de metodologías estadísticas aplicadas que se aplican en el caso 1 puede entenderse como una reformulación de metodologías del caso 2 a través de una proyección en un subespacio de dimensiones finitas de un espacio de funciones, puede ser polinomas, splines, wavelet, Fourier, ... . y traducirá el problema funcional en un problema vectorial dimensional finito (ya que en la matemática aplicada todo llega a ser finito en algún momento).
Mi pregunta es: ¿podemos decir que cualquier procedimiento estadístico que se aplique a datos funcionales también se puede aplicar (casi directamente) a datos de alta dimensión y que cualquier procedimiento dedicado a datos de alta dimensión se puede aplicar (casi directamente) a datos funcionales?
Si la respuesta es no, ¿puedes ilustrar?
EDITAR / ACTUALIZAR con la ayuda de la respuesta de Simon Byrne:
- sparsity (suposición de S-escasa, balón y débil l p bola para p < 1 ) se utiliza como una suposición estructural en el análisis estadístico dimensional alta.
- "suavidad" se utiliza como una suposición estructural en el análisis de datos funcionales.
Por otro lado, la transformada inversa de Fourier y la transformada inversa de wavelet están transformando la dispersión en suavidad, y la suavidad se transforma en la dispersión mediante la transformada wavelet y la transformada de Fourier. ¿Esto hace que la diferencia crítica mencionada por Simon no sea tan crítica?
fuente
Respuestas:
Los datos funcionales a menudo implican preguntas diferentes. He estado leyendo Análisis de datos funcionales, Ramsey y Silverman, y pasan muchas veces discutiendo el registro de curvas, las funciones de deformación y la estimación de derivados de curvas. Estas tienden a ser preguntas muy diferentes a las que hacen las personas interesadas en estudiar datos de alta dimensión.
fuente
Si y no. A nivel teórico, ambos casos pueden usar técnicas y marcos similares (un excelente ejemplo es la regresión del proceso gaussiano).
La diferencia crítica son los supuestos utilizados para evitar el sobreajuste (regularización):
En el caso funcional, por lo general, se asume cierta suavidad, en otras palabras, los valores que ocurren cerca uno del otro deberían ser similares de alguna manera sistemática. Esto lleva al uso de técnicas como splines, loess, procesos gaussianos, etc.
En el caso de alta dimensión, generalmente existe una suposición de escasez: es decir, solo un subconjunto de las dimensiones tendrá alguna señal. Esto conduce a técnicas que apuntan a identificar esas dimensiones (Lasso, LARS, antecedentes de losas y picos, etc.)
ACTUALIZAR:
Realmente no pensé en los métodos wavelet / Fourier, pero sí, las técnicas de umbral utilizadas para tales métodos apuntan a la escasez en el espacio proyectado. Por el contrario, algunas técnicas de alta dimensión suponen una proyección en una variedad de menor dimensión (por ejemplo, análisis de componentes principales), que es un tipo de suposición de suavidad.
fuente