Reducción supervisada de dimensionalidad

Tengo un conjunto de datos que consta de 15 K muestras etiquetadas (de 10 grupos). Quiero aplicar la reducción de dimensionalidad en 2 dimensiones, eso tomaría en consideración el conocimiento de las etiquetas.

Cuando uso técnicas de reducción de dimensionalidad no supervisadas "estándar" como PCA, el diagrama de dispersión parece no tener nada que ver con las etiquetas conocidas.

¿Lo que estoy buscando tiene un nombre? Me gustaría leer algunas referencias de soluciones.

machine-learning pca dimensionality-reduction supervised-learning discriminant-analysis Roy
fuente

Si está buscando métodos lineales, entonces debe utilizar el análisis discriminante lineal (LDA).

ameba dice Reinstate Monica

@amoeba: Gracias. ¡Lo usé y funcionó mucho mejor!

Roy

Me alegro de que haya ayudado. Proporcioné una breve respuesta con algunas referencias adicionales.

ameba dice Reinstate Monica

Una posibilidad sería reducir primero el espacio de nueve dimensiones que abarca los centroides de la clase, y luego usar PCA para reducir aún más a dos dimensiones.

A. Donda

Relacionado: stats.stackexchange.com/questions/16305 (posiblemente duplicado, aunque quizás al revés. Volveré a esto después de actualizar mi respuesta a continuación.)

Amoeba dice Reinstate Monica

Respuestas:

El método lineal más estándar de reducción de dimensionalidad supervisada se llama análisis discriminante lineal (LDA). Está diseñado para encontrar una proyección de baja dimensión que maximiza la separación de clases. Puede encontrar mucha información al respecto en nuestra etiqueta de análisis discriminante y en cualquier libro de texto de aprendizaje automático como, por ejemplo, The Elements of Statistical Learning .

Aquí hay una imagen que encontré aquí con una búsqueda rápida en google; muestra proyecciones de PCA y LDA unidimensionales cuando hay dos clases en el conjunto de datos (origen agregado por mí):

Otro enfoque se llama mínimos cuadrados parciales (PLS). LDA puede interpretarse como la búsqueda de proyecciones que tengan la mayor correlación con las variables ficticias que codifican las etiquetas de grupo (en este sentido, LDA puede verse como un caso especial de análisis de correlación canónica, CCA). En contraste, PLS busca proyecciones que tengan la mayor covarianza con las etiquetas de grupo. Mientras que LDA solo produce 1 eje para el caso de dos grupos (como en la imagen de arriba), PLS encontrará muchos ejes ordenados por la covarianza decreciente. Tenga en cuenta que cuando hay más de dos grupos presentes en el conjunto de datos, hay diferentes "sabores" de PLS que producirán resultados algo diferentes.

Actualización (2018)

Debería encontrar tiempo para ampliar esta respuesta; Este hilo parece ser popular, pero mi respuesta original anterior es muy corta y no lo suficientemente detallada.

$k$

ameba dice reinstalar Monica
fuente

bonito gráfico, explica mucho

Titou