El sitio web de inteligencia artificial define el aprendizaje fuera de política y dentro de política de la siguiente manera: "Un alumno fuera de la política aprende el valor de la política óptima independientemente de las acciones del agente. Q-learning es un alumno fuera de la política. Un...