Aprendizaje supervisado, aprendizaje no supervisado y aprendizaje de refuerzo: conceptos básicos del flujo de trabajo

30

Aprendizaje supervisado

  • 1) Un humano construye un clasificador basado en entrada y salida de datos
  • 2) Ese clasificador está entrenado con un conjunto de datos de entrenamiento
  • 3) Ese clasificador se prueba con un conjunto de datos de prueba
  • 4) Despliegue si el resultado es satisfactorio

Para usarse cuando, "Sé cómo clasificar estos datos, solo necesito que usted (el clasificador) los ordene".

Punto de método: clasificar etiquetas o producir números reales

Aprendizaje sin supervisión

  • 1) Un humano construye un algoritmo basado en datos de entrada
  • 2) Ese algoritmo se prueba con un conjunto de datos de prueba (en el que el algoritmo crea el clasificador)
  • 3) Despliegue si el clasificador es satisfactorio

Para usarse cuando, "No tengo idea de cómo clasificar estos datos, ¿puede (el algoritmo) crear un clasificador para mí?"

Punto de método: clasificar etiquetas o predecir (PDF)

Aprendizaje reforzado

  • 1) Un humano construye un algoritmo basado en datos de entrada
  • 2) Ese algoritmo presenta un estado dependiente de los datos de entrada en el que un usuario recompensa o castiga el algoritmo a través de la acción el algoritmo, esto continúa con el tiempo
  • 3) Ese algoritmo aprende de la recompensa / castigo y se actualiza a sí mismo, esto continúa
  • 4) Siempre está en producción, necesita aprender datos reales para poder presentar acciones de los estados

Para ser usado cuando, "No tengo idea de cómo clasificar estos datos, ¿puede clasificarlos y le daré una recompensa si es correcta o lo castigaré si no lo es?"

¿Es este el tipo de flujo de estas prácticas, escucho mucho sobre lo que hacen, pero la información práctica y ejemplar es terriblemente escasa!

Karl Morrison
fuente
Me gustó mucho la forma en que presentaste tu pregunta. Esta respuesta me pareció útil: stats.stackexchange.com/a/522/92255
Ashesh Kumar Singh

Respuestas:

3

¡Esta es una muy buena introducción compacta a las ideas básicas!

Aprendizaje reforzado

Creo que la descripción de su caso de uso del aprendizaje por refuerzo no es exactamente correcta. El término clasificar no es apropiado. Una mejor descripción sería:

No sé cómo actuar en este entorno , ¿puedes encontrar un buen comportamiento y mientras tanto te daré retroalimentación ?

En otras palabras, el objetivo es más bien controlar algo bien que clasificar algo bien.

Entrada

  • El medio ambiente que se define por
    • todos los estados posibles
    • posibles acciones en los estados
  • La función de recompensa depende del estado y / o acción.

Algoritmo

  • El agente
    • está en un estado
    • toma una acción para transferir a otro estado
    • obtiene una recompensa por la acción en el estado

Salida

  • El agente quiere encontrar una política óptima que maximice la recompensa.
elcombato
fuente
2

Descargo de responsabilidad: no soy un experto e incluso nunca he hecho algo con el aprendizaje de refuerzo (todavía), por lo que cualquier comentario sería bienvenido ...

Aquí hay una respuesta que agrega algunas pequeñas notas matemáticas a su lista y algunas ideas diferentes sobre cuándo usar qué. Espero que la enumeración se explique por sí sola:

Supervisado

  1. D={(x0,y0),(x1,y1),,(xn,yn)}
  2. gL(yi,g(xi))0i<l
  3. Llin

Podemos dar ejemplos, pero no podemos dar un algoritmo para pasar de entrada a salida

Ajuste para clasificación y regresión

Sin supervisión

  1. D={x0,x1,,xn}
  2. g
  3. Tenemos pocas o ninguna medida para decir si hicimos algo útil / interesante

Tenemos algunos datos, pero no tenemos idea de dónde comenzar a buscar cosas útiles / interesantes

Configuración para agrupamiento, reducción de dimensionalidad, búsqueda de factores ocultos, modelos generativos, etc.

Reforzamiento

  1. No tenemos datos
  2. gxiR(xi) , que el modelo generalmente no conoce (necesita ser aprendido también).
  3. Evaluamos mediante la función de recompensa después de que tuvo algún tiempo para aprender.

No tenemos idea de cómo hacer algo, pero podemos decir si se ha hecho bien o mal.

Esto parece especialmente útil para tareas de decisión secuencial.

Referencias:
Si, J., Barto, A., Powell, W. y Wunsch, D. (2004) El aprendizaje por refuerzo y su relación con el aprendizaje supervisado, en el Manual de aprendizaje y programación dinámica aproximada, John Wiley & Sons, Inc., Hoboken, NJ, Estados Unidos. doi: 10.1002 / 9780470544785.ch2

Señor tsjolder
fuente