Esta es una pregunta muy amplia , que creo que es imposible abarcar de manera integral en una sola respuesta. Por lo tanto, creo que sería más beneficioso proporcionar algunos consejos sobre respuestas y / o recursos relevantes. Esto es exactamente lo que haré al proporcionar la siguiente información y pensamientos míos.
En primer lugar, debo mencionar el excelente y completo tutorial sobre reducción de dimensionalidad de Burges (2009) de Microsoft Research. Toca con frecuencia los aspectos de alta dimensión de los datos en toda la monografía. Este trabajo, que se refiere a la reducción de dimensionalidad como reducción de dimensión , presenta una introducción teórica al problema , sugiere una taxonomía de métodos de reducción de dimensionalidad, que consiste en métodos proyectivos y múltiples métodos de modelado , y proporciona una visión general de los métodos múltiples en cada categoría.
Los " métodos de "búsqueda proyectiva " revisados incluyen análisis de componentes independientes (ICA) , análisis de componentes principales (PCA) y sus variaciones, como PCA de núcleo y PCA probabilística , análisis de correlación canónica (CCA) y su variación de CCA de núcleo , análisis discriminante lineal (LDA) ) , reducción de la dimensión del núcleo (KDR) y algunos otros. Los múltiples métodos revisados incluyen escalamiento multidimensional (MDS) y su variación histórica de MDS , Isomap , incrustación localmente linealy métodos gráficos, como mapas propios de Laplacia y agrupamiento espectral . Aquí enumero la mayoría de los métodos revisados en caso de que, si la publicación original es inaccesible para usted, ya sea en línea (enlace arriba) o fuera de línea (Referencias).
Hay una advertencia para el término "integral" que he aplicado al trabajo mencionado anteriormente. Si bien es bastante integral, esto es relativo, ya que algunos de los enfoques para la reducción de la dimensionalidad no se analizan en la monografía, en particular, los que se centran en variables no observables (latentes) . Sin embargo, algunos de ellos se mencionan con referencias a otra fuente: un libro sobre reducción de dimensionalidad.
Ahora, cubriré brevemente varios aspectos más específicos del tema en cuestión haciendo referencia a mis respuestas relevantes o relacionadas. Con respecto a los enfoques del tipo de vecinos más cercanos (NN) para datos de alta dimensión, consulte mis respuestas aquí (recomiendo especialmente consultar el papel # 4 en mi lista). Uno de los efectos de la maldición de la dimensionalidad es que los datos de alta dimensión son con frecuencia escasos . Considerando este hecho, creo que mis respuestas relevantes aquí y aquí sobre regresión y PCA para datos escasos y de alta dimensión podrían ser útiles.
Referencias
Burges, CJC (2010). Reducción de dimensiones: una visita guiada. Foundations and Trends® en Machine Learning, 2 (4), 275-365. doi: 10.1561 / 2200000002