Si se considera que las redes neuronales profundas son aproximadores de función universal, ¿es realmente necesaria la expansión de la base? ¿O esto sería específico para cada caso? Por ejemplo, si uno tiene tres variables X cuantitativas, ¿habría alguna ventaja en expandir el número de variables mediante la introducción de interacciones, polinomios, etc.? Esto parece tener una buena utilidad, por ejemplo, RF y SVM, pero no estoy seguro de si sería una buena estrategia para las redes neuronales.
Si esto es quizás demasiado amplio o vago, ¿alguien podría señalarme alguna información pertinente sobre la expansión de bases y la ingeniería de características en el contexto de redes profundas?
fuente
Muchos modelos de aprendizaje profundo aprenden sus propias características de los datos de entrada sin procesar durante el entrenamiento (por ejemplo, redes neuronales convolucionales 2D para imágenes). Entonces, en muchos casos, ni siquiera tiene que preocuparse por pasar variables explícitamente a su modelo. En algunos otros casos, aún necesita características, pero solo características principales (por ejemplo, palabras en PNL). Estas características se representan como vectores en un espacio incrustado que captura similitudes (por ejemplo, ese 'presidente' está cerca de 'Obama'). El espacio de incrustación proviene de un pre-entrenamiento no supervisado (word2vec, glove) o se inicializa al azar, y los vectores se sintonizan durante el entrenamiento mediante retropropagación. La arquitectura de la red es responsable de las combinaciones de funciones de aprendizaje, como la diferencia entre 'no está mal, está bastante bien' y 'no está bien,
El párrafo 'Combinaciones de características' de la Sección 3 de Goldberg, Y. (2015). Una introducción a los modelos de redes neuronales para el procesamiento del lenguaje natural. Revista de investigación de inteligencia artificial, 57, 345-420. explica muy bien esto (realmente recomiendo leer toda la Sección 3, es excelente):
fuente