He implementado Q-Learning como se describe en, http://web.cs.swarthmore.edu/~meeden/cs81/s12/papers/MarkStevePaper.pdf Para aprox. P (S, A) Uso una estructura de red neuronal como la siguiente, Activación sigmoidea Entradas, número de entradas + 1 para neuronas de acción (todas las entradas...