En el documento de 2015 de DeepMind sobre el aprendizaje de refuerzo profundo, afirma que "Los intentos anteriores de combinar RL con redes neuronales habían fracasado en gran medida debido al aprendizaje inestable". Luego, el documento enumera algunas causas de esto, en función de las correlaciones entre las observaciones.
¿Podría alguien explicar qué significa esto? ¿Es una forma de sobreajuste, donde la red neuronal aprende alguna estructura que está presente en el entrenamiento, pero que puede no estar presente en las pruebas? O significa algo más?
El documento se puede encontrar: http://www.nature.com/nature/journal/v518/n7540/full/nature14236.html
Y la sección que estoy tratando de entender es:
Se sabe que el aprendizaje por refuerzo es inestable o incluso divergente cuando se utiliza un aproximador de función no lineal, como una red neuronal, para representar la función de valor de acción (también conocida como Q). Esta inestabilidad tiene varias causas: las correlaciones presentes en la secuencia de observaciones, el hecho de que pequeñas actualizaciones a Q pueden cambiar significativamente la política y, por lo tanto, cambiar la distribución de datos, y las correlaciones entre los valores de acción y los valores objetivo.
Abordamos estas inestabilidades con una variante novedosa de Q-learning, que utiliza dos ideas clave. Primero, utilizamos un mecanismo inspirado biológicamente denominado repetición de experiencia que aleatoriza los datos, eliminando así las correlaciones en la secuencia de observación y suavizando los cambios en la distribución de datos. En segundo lugar, utilizamos una actualización iterativa que ajusta los valores de acción (Q) hacia los valores objetivo que solo se actualizan periódicamente, reduciendo así las correlaciones con el objetivo.
Respuestas:
El principal problema es que, como en muchos otros campos, DNN puede ser difícil de entrenar. Aquí, un problema es la correlación de los datos de entrada: si piensas en un videojuego (en realidad los usan para probar sus algoritmos), puedes imaginar que las capturas de pantalla tomadas un paso tras otro están altamente correlacionadas: el juego evoluciona "continuamente". Eso, para los NN, puede ser un problema: hacer muchas iteraciones de descenso de gradiente en entradas similares y correlacionadas puede conducir a sobreajustarlas y / o caer en un mínimo local. Es por eso que usan la repetición de la experiencia: almacenan una serie de "instantáneas" del juego, luego las barajan y luego las siguen algunos pasos para entrenar. De esta manera, los datos ya no están correlacionados. Luego, notan cómo durante el entrenamiento los valores Q (predichos por el NN) pueden cambiar la política en curso,
fuente