Ajuste dinámico de la arquitectura NN: ¿inventar lo innecesario?

9

Estoy comenzando mi viaje de doctorado, y el objetivo final que me propuse es desarrollar ANN que supervisen el entorno en el que trabajan y ajusten dinámicamente su arquitectura al problema en cuestión. La implicación obvia es la temporalidad de los datos: si el conjunto de datos no es continuo y no cambia con el tiempo, ¿por qué ajustar en absoluto?

La gran pregunta es: con el reciente aumento del aprendizaje profundo, ¿sigue siendo un tema relevante? ¿Las FFNN tienen la oportunidad de encontrar un nicho en los problemas de deriva conceptual?

Temo sobrecargar el hilo con demasiadas preguntas, pero esta no está completamente fuera de tema: soy consciente de los RNN, pero tengo una experiencia limitada (ok, ninguna o puramente teórica) con ellos; Creo que la adaptación dinámica de la arquitectura debe ser un tema relevante en el contexto de las RNN. La pregunta es, ¿ya ha sido respondida, y voy a reinventar la rueda?

Publicación cruzada de PS en MetaOptimize

Anna Earwen
fuente
Cuando dice "ajustar su arquitectura", ¿se refiere a los parámetros (pesos, sesgos) o actualiza la estructura real de la red (nodos ocultos, función de activación, conectividad, etc.)? Además, en muchas aplicaciones de aprendizaje profundo, el resultado final ES una red neuronal de avance, solo una con pesos inicializados por algún proceso no supervisado.
alto
@alto, me estoy refiriendo a la estructura NN real - número de unidades ocultas y (posiblemente) capas - estoy seguro de que se puede implementar en diferentes niveles de complejidad. Siento que tengo que empezar a leer sobre el aprendizaje profundo para poder llegar a algún lado.
anna-earwen
@ Anna-Earwen interesante tema de doctorado, ¿cómo va, alguna publicación todavía?
Dikran Marsupial
1
@Dikran Marsupial, pronto me dirigiré a IJCNN 2014 para hablar sobre cómo y por qué PSO no capacita a las NN de alta dimensión. Entonces, la respuesta es sí y sé: tomé un gran desvío del vector de investigación original, y me pregunto si aún volveré a las arquitecturas ajustables. ¡Solo el tiempo y los resultados empíricos lo dirán!
Anna-Earwen
Lo buscaré en el proceso: entender por qué las cosas no funcionan es algo de lo que la ciencia necesita más (y estudios empíricos sólidos).
Dikran Marsupial

Respuestas:

6

Las redes neuronales de correlación en cascada ajustan su estructura agregando nodos ocultos durante el proceso de capacitación, por lo que este puede ser un lugar para comenzar. La mayoría de los otros trabajos que he visto que ajustan automáticamente el número de capas, el número de nodos ocultos, etc., de una red neuronal utilizan algoritmos evolutivos.

Desafortunadamente, este trabajo está fuera de mi área, por lo que no puedo recomendar ningún documento o referencia en particular para ayudarlo a comenzar. Puedo decirle que no he visto ningún trabajo que intente optimizar conjuntamente la estructura de red y los parámetros simultáneamente dentro de la comunidad de aprendizaje profundo. De hecho, la mayoría de las arquitecturas de aprendizaje profundo se basan en el aprendizaje codicioso de una sola capa a la vez, lo que hace que incluso el aprendizaje en línea de redes neuronales profundas sea un área bastante intacta (el trabajo de Martens et al. En Hessian Free Optimization es una notable excepción).

Alto
fuente
Muchas gracias, ya me diste suficiente información para comenzar a buscar oro. :)
anna-earwen
2

Otra razón para considerar el desarrollo de enfoques novedosos para redes neuronales constructivas (como el algoritmo CC @alto mencionado) está en aplicaciones fuera de las estadísticas . En particular, en la neurociencia teórica y la ciencia cognitiva, las redes neuronales constructivas a menudo se usan debido a una similitud metafórica con el desarrollo y la neurogénesis. Para ver un ejemplo del uso intensivo de la correlación en cascada para esto, eche un vistazo a las publicaciones de Thomas R. Shultz . Desafortunadamente, el enfoque de correlación en cascada es biológicamente poco realista y si tiene una curva de neurociencia, vale la pena considerar cómo los nuevos NN con arquitectura ajustable podrían usarse como mejores modelos de desarrollo y / o neurogénesis.

Artem Kaznatcheev
fuente
1
Gracias Artem! De hecho, soy más un puro informático que cualquier otra cosa, por lo tanto, mi conocimiento de la ciencia neurológica y cognitiva es poco escaso. Sin embargo, suena emocionante, y dado que todos los caminos aún están abiertos, podría profundizar en esto también, al menos en cierta medida. En este momento, estoy particularmente interesado en aplicaciones para problemas de ingeniería y análisis de datos de la vida real que podrían funcionar para la evaluación comparativa.
anna-earwen