¿Qué tan importante es la expansión de bases para redes profundas?

8

Si se considera que las redes neuronales profundas son aproximadores de función universal, ¿es realmente necesaria la expansión de la base? ¿O esto sería específico para cada caso? Por ejemplo, si uno tiene tres variables X cuantitativas, ¿habría alguna ventaja en expandir el número de variables mediante la introducción de interacciones, polinomios, etc.? Esto parece tener una buena utilidad, por ejemplo, RF y SVM, pero no estoy seguro de si sería una buena estrategia para las redes neuronales.

Si esto es quizás demasiado amplio o vago, ¿alguien podría señalarme alguna información pertinente sobre la expansión de bases y la ingeniería de características en el contexto de redes profundas?

neural-networks deep-learning feature-construction srhoades10
fuente

8

La idea de una red neuronal profunda es que puede hacer la ingeniería de características automáticamente para nosotros. (Consulte el primer capítulo del libro de aprendizaje profundo ). Le recomiendo encarecidamente que lea el primer capítulo.

Hacer una expansión de base no es realmente necesario y se usa con poca frecuencia. Tenga en cuenta que, la red profunda generalmente toma características en bruto como entradas, para las imágenes que tienen (al menos) miles de píxeles, tampoco es posible hacer la expansión de la base (digamos expansión polinómica de orden superior) de manera efectiva antes de alimentar a la neuronal red.

De hecho, hay algunas operaciones en la red neuronal profunda que se pueden ver como expansión de base.

La capa de convolución se puede ver como ingeniería de características en la expansión de base de Fourier. Vea mi pregunta: ¿Cuál es la intuición detrás de la red neuronal convolucional?
El ReLU puede verse como un ajuste lineal por partes (spline).

Haitao Du
fuente

1

Convenido. Agregaría que si el modelador tiene un sentido a priori de la forma funcional de la relación predictor-respuesta, entonces probablemente sería mejor evitar por completo las capas ocultas; es decir, regresión o clasificación "vainilla". Además, creo que la adición de parámetros de expansión de base hace que este enfoque sea muy propenso al sobreajuste, y las técnicas de regularización típicas en las redes neuronales no harán nada contra la extracción de ruido (intencional o no) de esos parámetros.

Josh

Gracias @ hxd1011 y Josh, estos son puntos útiles. Sabía que las funciones de activación introducen la no linealidad en los NN, pero supongo que realmente no pensé en cómo eso se ocupa de la preocupación común en las configuraciones de regresión de rutina al intentar "manualmente" introducir efectos no lineales.

srhoades10

6

Muchos modelos de aprendizaje profundo aprenden sus propias características de los datos de entrada sin procesar durante el entrenamiento (por ejemplo, redes neuronales convolucionales 2D para imágenes). Entonces, en muchos casos, ni siquiera tiene que preocuparse por pasar variables explícitamente a su modelo. En algunos otros casos, aún necesita características, pero solo características principales (por ejemplo, palabras en PNL). Estas características se representan como vectores en un espacio incrustado que captura similitudes (por ejemplo, ese 'presidente' está cerca de 'Obama'). El espacio de incrustación proviene de un pre-entrenamiento no supervisado (word2vec, glove) o se inicializa al azar, y los vectores se sintonizan durante el entrenamiento mediante retropropagación. La arquitectura de la red es responsable de las combinaciones de funciones de aprendizaje, como la diferencia entre 'no está mal, está bastante bien' y 'no está bien,

El párrafo 'Combinaciones de características' de la Sección 3 de Goldberg, Y. (2015). Una introducción a los modelos de redes neuronales para el procesamiento del lenguaje natural. Revista de investigación de inteligencia artificial, 57, 345-420. explica muy bien esto (realmente recomiendo leer toda la Sección 3, es excelente):

Las características de combinación son cruciales en los modelos lineales porque introducen más dimensiones en la entrada, transformándola en un espacio donde los puntos de datos están más cerca de ser linealmente separables. Por otro lado, el espacio de combinaciones posibles es muy grande, y el diseñador de características tiene que pasar mucho tiempo ideando un conjunto efectivo de combinaciones de características. Una de las promesas de los modelos de redes neuronales no lineales es que uno necesita definir solo las características principales. Se espera que la no linealidad del clasificador, según lo definido por la estructura de la red, se encargue de encontrar las combinaciones de características indicativas, aliviando la necesidad de ingeniería de combinación de características.

Antoine
fuente

¿Qué tan importante es la expansión de bases para redes profundas?

Respuestas: