Aprendizaje supervisado
- 1) Un humano construye un clasificador basado en entrada y salida de datos
- 2) Ese clasificador está entrenado con un conjunto de datos de entrenamiento
- 3) Ese clasificador se prueba con un conjunto de datos de prueba
- 4) Despliegue si el resultado es satisfactorio
Para usarse cuando, "Sé cómo clasificar estos datos, solo necesito que usted (el clasificador) los ordene".
Punto de método: clasificar etiquetas o producir números reales
Aprendizaje sin supervisión
- 1) Un humano construye un algoritmo basado en datos de entrada
- 2) Ese algoritmo se prueba con un conjunto de datos de prueba (en el que el algoritmo crea el clasificador)
- 3) Despliegue si el clasificador es satisfactorio
Para usarse cuando, "No tengo idea de cómo clasificar estos datos, ¿puede (el algoritmo) crear un clasificador para mí?"
Punto de método: clasificar etiquetas o predecir (PDF)
Aprendizaje reforzado
- 1) Un humano construye un algoritmo basado en datos de entrada
- 2) Ese algoritmo presenta un estado dependiente de los datos de entrada en el que un usuario recompensa o castiga el algoritmo a través de la acción el algoritmo, esto continúa con el tiempo
- 3) Ese algoritmo aprende de la recompensa / castigo y se actualiza a sí mismo, esto continúa
- 4) Siempre está en producción, necesita aprender datos reales para poder presentar acciones de los estados
Para ser usado cuando, "No tengo idea de cómo clasificar estos datos, ¿puede clasificarlos y le daré una recompensa si es correcta o lo castigaré si no lo es?"
¿Es este el tipo de flujo de estas prácticas, escucho mucho sobre lo que hacen, pero la información práctica y ejemplar es terriblemente escasa!
Respuestas:
¡Esta es una muy buena introducción compacta a las ideas básicas!
Aprendizaje reforzado
Creo que la descripción de su caso de uso del aprendizaje por refuerzo no es exactamente correcta. El término clasificar no es apropiado. Una mejor descripción sería:
En otras palabras, el objetivo es más bien controlar algo bien que clasificar algo bien.
Entrada
Algoritmo
Salida
fuente
Descargo de responsabilidad: no soy un experto e incluso nunca he hecho algo con el aprendizaje de refuerzo (todavía), por lo que cualquier comentario sería bienvenido ...
Aquí hay una respuesta que agrega algunas pequeñas notas matemáticas a su lista y algunas ideas diferentes sobre cuándo usar qué. Espero que la enumeración se explique por sí sola:
Supervisado
Ajuste para clasificación y regresión
Sin supervisión
Configuración para agrupamiento, reducción de dimensionalidad, búsqueda de factores ocultos, modelos generativos, etc.
Reforzamiento
Esto parece especialmente útil para tareas de decisión secuencial.
Referencias:
Si, J., Barto, A., Powell, W. y Wunsch, D. (2004) El aprendizaje por refuerzo y su relación con el aprendizaje supervisado, en el Manual de aprendizaje y programación dinámica aproximada, John Wiley & Sons, Inc., Hoboken, NJ, Estados Unidos. doi: 10.1002 / 9780470544785.ch2
fuente