Es cierto que cualquier problema de aprendizaje supervisado se puede considerar un problema de aprendizaje de refuerzo equivalente: deje que los estados correspondan a los datos de entrada. Deje que las acciones correspondan a las predicciones de la salida. Defina la recompensa como el negativo de la función de pérdida utilizada para el aprendizaje supervisado. Maximiza la recompensa esperada. Por el contrario, los problemas de aprendizaje de refuerzo generalmente no se pueden considerar problemas de aprendizaje supervisados. Entonces, desde esta perspectiva, los problemas de aprendizaje supervisado son un subconjunto de problemas de aprendizaje de refuerzo.
Pero, tratar de resolver un problema de aprendizaje supervisado utilizando un algoritmo de aprendizaje de refuerzo general sería bastante inútil; todo lo que hace es tirar la estructura que habría hecho que el problema fuera más fácil de resolver. En el aprendizaje por refuerzo surgen varios problemas que no son relevantes para el aprendizaje supervisado. Y, el aprendizaje supervisado puede beneficiarse de los enfoques que no se aplican en el entorno de aprendizaje de refuerzo general. Por lo tanto, aunque existen algunos principios subyacentes comunes y técnicas compartidas entre los campos, normalmente no se ve el aprendizaje supervisado como un tipo de aprendizaje de refuerzo.
Referencias
Barto y Dietterich (2004) . Aprendizaje de refuerzo y su relación con el aprendizaje supervisado.