Mi conjunto de datos se compone de secuencias vectoriales. Cada vector tiene 50 dimensiones de valor real. El número de vectores en una secuencia varía de 3-5 a 10-15. En otras palabras, la longitud de una secuencia no es fija.
Una buena cantidad de secuencias (¡no vectores!) Están anotadas con una etiqueta de clase. Mi tarea es aprender un clasificador que, dada una secuencia de vectores, se calcule la etiqueta de clase para toda la secuencia.
No puedo decir la naturaleza exacta de los datos, pero la naturaleza de las secuencias no es temporal. Sin embargo, un vector no puede intercambiarse con un vector sin cambiar la etiqueta ( ). En otras palabras, el orden de los vectores es importante. Los vectores en sí son comparables, por ejemplo, tiene sentido calcular un producto de puntos y utilizar este valor de similitud.
Mi pregunta es: ¿cuáles son las herramientas / algoritmos que pueden ayudar a clasificar dichos datos?
ACTUALIZACIÓN: Los datos tienen una propiedad tal que uno o muy pocos vectores influyen fuertemente en la etiqueta de la clase.
POSIBLE SOLUCIÓN: Después de algunas investigaciones, parece que las Redes Neuronales Recurrentes (RNN) se ajustan perfectamente a la factura. La idea general es elegir un tamaño de contexto , concatenar vectores de palabras, hacer una agrupación máxima y alimentarlo a través de NN clásico. En cada posible posición de ventana de contexto en una oración, se construye un vector de características. El vector de características final se construye utilizando la agrupación máxima, por ejemplo. La retropropagación se realiza para ajustar los parámetros de la red. Ya obtuve algunos resultados positivos (GPU es imprescindible).
fuente