¿Es una política siempre determinista en el aprendizaje por refuerzo?
En el aprendizaje por refuerzo, ¿es una política siempre determinista, o es una distribución de probabilidad sobre las acciones (de las cuales tomamos muestras)? Si la política es determinista, ¿por qué no es la función de valor, que se define en un estado dado para una política dada siguiente...