¿Por qué Q-Learning usa epsilon-greedy durante las pruebas?

En el artículo de DeepMind sobre Deep Q-Learning para videojuegos Atari ( aquí ), utilizan un método de épsilon codicioso para la exploración durante el entrenamiento. Esto significa que cuando se selecciona una acción en el entrenamiento, se elige como la acción con el valor q más alto o como una...