Una Red de Echo State es una instancia del concepto más general de Reservoir Computing . La idea básica detrás del ESN es obtener los beneficios de un RNN (procesar una secuencia de entradas que dependen unas de otras, es decir, dependencias del tiempo como una señal) pero sin los problemas de entrenar a un RNN tradicional como el problema del gradiente de fuga .
Los ESN logran esto al tener un depósito relativamente grande de neuronas escasamente conectadas que utilizan una función de transferencia sigmoidal (en relación con el tamaño de entrada, algo así como 100-1000 unidades). Las conexiones en el depósito se asignan una vez y son completamente aleatorias; los pesos del reservorio no se entrenan. Las neuronas de entrada están conectadas al reservorio y alimentan las activaciones de entrada al reservorio; a estos también se les asignan pesos aleatorios no entrenados. Los únicos pesos que se entrenan son los pesos de salida que conectan el reservorio con las neuronas de salida.
En el entrenamiento, las entradas se enviarán al depósito y se aplicará una salida del maestro a las unidades de salida. Los estados del yacimiento se capturan con el tiempo y se almacenan. Una vez que se han aplicado todas las entradas de entrenamiento, se puede usar una aplicación simple de regresión lineal entre los estados del yacimiento capturado y las salidas objetivo. Estos pesos de salida pueden incorporarse a la red existente y usarse para entradas novedosas.
La idea es que las escasas conexiones aleatorias en el depósito permiten que los estados anteriores "repitan" incluso después de que hayan pasado, de modo que si la red recibe una entrada nueva que es similar a algo en lo que se entrenó, la dinámica en el depósito comenzará a siga la trayectoria de activación apropiada para la entrada y de esa manera puede proporcionar una señal coincidente con lo que entrenó, y si está bien entrenado podrá generalizar a partir de lo que ya ha visto, siguiendo trayectorias de activación que tendrían sentido dada la señal de entrada que impulsa el depósito.
La ventaja de este enfoque está en el procedimiento de entrenamiento increíblemente simple, ya que la mayoría de los pesos se asignan solo una vez y al azar. Sin embargo, pueden capturar dinámicas complejas con el tiempo y pueden modelar propiedades de sistemas dinámicos. Con mucho, los documentos más útiles que he encontrado en ESN son:
Ambos tienen explicaciones fáciles de entender junto con el formalismo y consejos sobresalientes para crear una implementación con orientación para elegir los valores de parámetros apropiados.
ACTUALIZACIÓN: El libro de Aprendizaje profundo de Goodfellow, Bengio y Courville tiene una discusión de alto nivel un poco más detallada pero aún agradable de Echo State Networks. La Sección 10.7 discute el problema de gradiente de desaparición (y explosión) y las dificultades de aprender dependencias a largo plazo. La Sección 10.8 trata sobre las Redes de Echo State. Específicamente entra en detalles sobre por qué es crucial seleccionar pesos de yacimientos que tengan un valor de radio espectral apropiado : funciona junto con las unidades de activación no lineales para fomentar la estabilidad mientras se propaga la información a través del tiempo.