Datos de alta dimensión: ¿cuáles son las técnicas útiles para saber?

14

Debido a varias maldiciones de dimensionalidad , la precisión y la velocidad de muchas de las técnicas predictivas comunes se degradan en datos de alta dimensión. ¿Cuáles son algunas de las técnicas / trucos / heurísticas más útiles que ayudan a manejar los datos de alta dimensión de manera efectiva? Por ejemplo,

¿Ciertos métodos estadísticos / de modelado funcionan bien en conjuntos de datos de alta dimensión?
¿Podemos mejorar el rendimiento de nuestros modelos predictivos en datos de alta dimensión mediante el uso de ciertos (que definen nociones alternativas de distancia) o núcleos (que definen nociones alternativas de producto de puntos)?
¿Cuáles son las técnicas más útiles de reducción de dimensionalidad para datos de alta dimensión?

machine-learning statistics dimensionality-reduction ASX
fuente

10

Esta es una pregunta muy amplia , que creo que es imposible abarcar de manera integral en una sola respuesta. Por lo tanto, creo que sería más beneficioso proporcionar algunos consejos sobre respuestas y / o recursos relevantes. Esto es exactamente lo que haré al proporcionar la siguiente información y pensamientos míos.

En primer lugar, debo mencionar el excelente y completo tutorial sobre reducción de dimensionalidad de Burges (2009) de Microsoft Research. Toca con frecuencia los aspectos de alta dimensión de los datos en toda la monografía. Este trabajo, que se refiere a la reducción de dimensionalidad como reducción de dimensión , presenta una introducción teórica al problema , sugiere una taxonomía de métodos de reducción de dimensionalidad, que consiste en métodos proyectivos y múltiples métodos de modelado , y proporciona una visión general de los métodos múltiples en cada categoría.

Los " métodos de "búsqueda proyectiva " revisados incluyen análisis de componentes independientes (ICA) , análisis de componentes principales (PCA) y sus variaciones, como PCA de núcleo y PCA probabilística , análisis de correlación canónica (CCA) y su variación de CCA de núcleo , análisis discriminante lineal (LDA) ) , reducción de la dimensión del núcleo (KDR) y algunos otros. Los múltiples métodos revisados incluyen escalamiento multidimensional (MDS) y su variación histórica de MDS , Isomap , incrustación localmente linealy métodos gráficos, como mapas propios de Laplacia y agrupamiento espectral . Aquí enumero la mayoría de los métodos revisados en caso de que, si la publicación original es inaccesible para usted, ya sea en línea (enlace arriba) o fuera de línea (Referencias).

Hay una advertencia para el término "integral" que he aplicado al trabajo mencionado anteriormente. Si bien es bastante integral, esto es relativo, ya que algunos de los enfoques para la reducción de la dimensionalidad no se analizan en la monografía, en particular, los que se centran en variables no observables (latentes) . Sin embargo, algunos de ellos se mencionan con referencias a otra fuente: un libro sobre reducción de dimensionalidad.

Ahora, cubriré brevemente varios aspectos más específicos del tema en cuestión haciendo referencia a mis respuestas relevantes o relacionadas. Con respecto a los enfoques del tipo de vecinos más cercanos (NN) para datos de alta dimensión, consulte mis respuestas aquí (recomiendo especialmente consultar el papel # 4 en mi lista). Uno de los efectos de la maldición de la dimensionalidad es que los datos de alta dimensión son con frecuencia escasos . Considerando este hecho, creo que mis respuestas relevantes aquí y aquí sobre regresión y PCA para datos escasos y de alta dimensión podrían ser útiles.

Referencias

Burges, CJC (2010). Reducción de dimensiones: una visita guiada. Foundations and Trends® en Machine Learning, 2 (4), 275-365. doi: 10.1561 / 2200000002

Aleksandr Blekh
fuente

0

Aleksander ha dado una respuesta muy completa, pero hay algunas que son muy demandadas:

Para la reducción de dimensionalidad, se utiliza PCA. Sin embargo, esto solo hace una transformación lineal y para la reducción de dimensionalidad no lineal, el aprendizaje múltiple es lo que está buscando.

La proyección de datos dimensionales más bajos a dimensiones más altas se puede hacer usando núcleos. Por lo general, hace esto cuando su clasificador no puede encontrar un plano lineal de separación en la dimensión actual, pero podrá encontrar un hiperplano lineal que separe las clases en una dimensión superior. Los granos se usan ampliamente en SVM.

RAM
fuente

Datos de alta dimensión: ¿cuáles son las técnicas útiles para saber?

Respuestas: