Uso de mapas autoorganizados para reducir la dimensionalidad

8

En los últimos días, he estado realizando algunas investigaciones sobre mapas autoorganizados para un proyecto en la escuela. He llegado a comprender que los mapas autoorganizados se pueden utilizar para reducir la dimensionalidad de sus datos. Sin embargo, no entiendo cómo funciona esto. Por ejemplo, supongamos que tiene una red de neuronas de 10x10 en un SOM, y su entrada es de 25 dimensiones. Entonces, según tengo entendido, crearía un vector de características para cada neurona que también sea 25D. En el momento en que se realiza el entrenamiento, terminas con 100 vectores 25D. ¿Cómo está esto reduciendo exactamente las dimensiones de los datos? ¿Se supone que debo preocuparme por la ubicación de las neuronas?

EDITAR: Ya leí la pregunta Reducción de dimensionalidad usando un mapa autoorganizado, pero no creo que responda a la pregunta que tengo.

usuario1231745
fuente

Respuestas:

12

El mapa de autoorganización (SOM) es una cuadrícula que llena espacios y proporciona una reducción discreta de la dimensionalidad de los datos.

Comienza con un espacio de puntos de datos de alta dimensión y una cuadrícula arbitraria que se encuentra en ese espacio. La cuadrícula puede ser de cualquier dimensión, pero generalmente es más pequeña que la dimensión de su conjunto de datos, y generalmente es 2D, porque es fácil de visualizar.

Para cada dato en su conjunto de datos, encuentre el punto de cuadrícula más cercano y "arrastre" ese punto de cuadrícula hacia el conjunto de datos. También tira de cada uno de los puntos de cuadrícula vecinos hacia la nueva posición del primer punto de cuadrícula. Al comienzo del proceso, atrae a muchos vecinos hacia el punto de datos. Más adelante en el proceso, cuando su cuadrícula comienza a llenar el espacio, se mueve menos vecinos, y esto actúa como una especie de ajuste fino. Este proceso da como resultado un conjunto de puntos en el espacio de datos que se ajustan razonablemente a la forma del espacio, pero que también pueden tratarse como una cuadrícula de menor dimensión.

Este es un proceso explicado bien por dos imágenes de la página 1468 del artículo de Kohonen de 1990 :

Esta imagen muestra un mapa unidimensional en una distribución uniforme en un triángulo. La cuadrícula comienza como un desastre en el centro, y gradualmente se tira hacia una curva que llena el triángulo razonablemente bien, dada la cantidad de puntos de cuadrícula:

SOM unidimensional

La parte izquierda de esta segunda imagen muestra una cuadrícula SOM 2D que llena de cerca el espacio definido por la forma del cactus a la izquierda:

2D cactus SOM

Hay un video del proceso SOM usando una cuadrícula 2D en un espacio 2D y en un espacio 3D en youtube.

Ahora cada uno de los puntos de datos originales en el espacio tiene un vecino más cercano, al que está asignado. La cuadrícula es, por lo tanto, el centro de los grupos de puntos de datos. La cuadrícula proporciona la reducción de dimensionalidad.

Aquí hay una comparación de la reducción de dimensionalidad usando el análisis de componentes principales (PCA), de la página de SOM en wikipedia :

Reducción de dimensionalidad de SOM de en.wikipedia.org/wiki/File:SOMsPCA.PNG

Se observa de inmediato que el SOM unidimensional proporciona un ajuste mucho mejor a los datos, explicando más del 93% de la varianza, en comparación con el 77% para PCA. Sin embargo, hasta donde yo sé, no hay una manera fácil de explicar la varianza restante, como ocurre con PCA (usando dimensiones adicionales), ya que no hay una forma ordenada de desenvolver los datos alrededor de la cuadrícula discreta de SOM.

nada101
fuente
2

A pesar de que terminas con más nodos que dimensiones de características, sigues reduciendo la dimensionalidad. Tenga en cuenta que inicialmente tenía un espacio de 25 dimensiones y, ahora, tiene esas 25 dimensiones proyectadas en solo 2 dimensiones. En lugar de representar el espacio continuo completo de 25 dimensiones, el SOM le proporciona los puntos "más importantes" en ese espacio.

felipeduque
fuente