¿Cuál es la diferencia entre iteración de valor e iteración de política?

En el aprendizaje por refuerzo, ¿cuál es la diferencia entre la iteración de políticas y la iteración de valores ? Por lo que tengo entendido, en la iteración de valor, utiliza la ecuación de Bellman para resolver la política óptima, mientras que, en la iteración de política, selecciona...