Preguntas etiquetadas con reinforcement-learning

79

¿Cuál es la diferencia entre el aprendizaje fuera de política y dentro de política?

El sitio web de inteligencia artificial define el aprendizaje fuera de política y dentro de política de la siguiente manera: "Un alumno fuera de la política aprende el valor de la política óptima independientemente de las acciones del agente. Q-learning es un alumno fuera de la política. Un...

machine-learning reinforcement-learning artificial-intelligence

43

Comprender el papel del factor de descuento en el aprendizaje por refuerzo

Me estoy enseñando sobre el aprendizaje por refuerzo y estoy tratando de entender el concepto de recompensa con descuento. Entonces, la recompensa es necesaria para decirle al sistema qué pares de estado-acción son buenos y cuáles son malos. Pero lo que no entiendo es por qué es necesaria la...

machine-learning reinforcement-learning

32

¿Por qué no hay motores de aprendizaje de refuerzo profundo para el ajedrez, similares a AlphaGo?

Las computadoras han podido jugar al ajedrez durante mucho tiempo utilizando una técnica de "fuerza bruta", buscando a cierta profundidad y luego evaluando la posición. Sin embargo, la computadora AlphaGo solo usa un ANN para evaluar las posiciones (hasta donde yo sé, no realiza ninguna búsqueda...

neural-networks deep-learning reinforcement-learning games

30

Aprendizaje supervisado, aprendizaje no supervisado y aprendizaje de refuerzo: conceptos básicos del flujo de trabajo

Aprendizaje supervisado 1) Un humano construye un clasificador basado en entrada y salida de datos 2) Ese clasificador está entrenado con un conjunto de datos de entrenamiento 3) Ese clasificador se prueba con un conjunto de datos de prueba 4) Despliegue si el resultado es satisfactorio Para...

machine-learning unsupervised-learning supervised-learning reinforcement-learning

27

¿El mejor algoritmo de bandido?

El algoritmo de bandido más conocido es el límite superior de confianza (UCB) que popularizó esta clase de algoritmos. Desde entonces supongo que ahora hay mejores algoritmos. ¿Cuál es el mejor algoritmo actual (en términos de rendimiento empírico o límites teóricos)? ¿Es este algoritmo óptimo en...

machine-learning algorithms theory reinforcement-learning multiarmed-bandit

25

Análisis diario de series de tiempo

Estoy tratando de hacer análisis de series de tiempo y soy nuevo en este campo. Tengo un recuento diario de un evento del 2006 al 2009 y quiero ajustarle un modelo de serie temporal. Aquí está el progreso que he hecho: timeSeriesObj =

r time-series seasonality multiple-seasonalities tbats hypothesis-testing beta-distribution machine-learning unsupervised-learning supervised-learning reinforcement-learning

22

¿Cómo diseñarías un sistema de aprendizaje automático para jugar Angry Birds?

Después de jugar demasiado Angry Birds, comencé a observar mis propias estrategias. Resulta que desarrollé un enfoque muy específico para obtener 3 estrellas en cada nivel. Eso me hizo preguntarme sobre los desafíos de desarrollar un sistema de aprendizaje automático que pudiera jugar a Angry...

machine-learning reinforcement-learning

20

¿Qué es el aprendizaje de refuerzo recurrente?

Recientemente me encontré con la palabra "Aprendizaje de refuerzo recurrente". Entiendo qué es "Red neuronal recurrente" y qué es "Aprendizaje de refuerzo", pero no pude encontrar mucha información sobre lo que es un "Aprendizaje de refuerzo recurrente". ¿Puede alguien explicarme qué es un...

machine-learning reinforcement-learning

19

Cuándo elegir SARSA vs. Q Learning

SARSA y Q Learning son algoritmos de aprendizaje de refuerzo que funcionan de manera similar. La diferencia más notable es que SARSA está en la política, mientras que Q Learning está fuera de la política. Las reglas de actualización son las siguientes: Q

reinforcement-learning

18

Cómo hacer que una recompensa funcione en el aprendizaje por refuerzo

Mientras estudiaba el aprendizaje por refuerzo, me encontré con muchas formas de la función de recompensa: , R ( s , a , s ' ) e incluso una función de recompensa que solo depende del estado actual. Dicho esto, me di cuenta de que no es muy fácil 'hacer' o 'definir' una función de recompensa.R ( s...

machine-learning reinforcement-learning

18

¿Por qué Q-Learning usa epsilon-greedy durante las pruebas?

En el artículo de DeepMind sobre Deep Q-Learning para videojuegos Atari ( aquí ), utilizan un método de épsilon codicioso para la exploración durante el entrenamiento. Esto significa que cuando se selecciona una acción en el entrenamiento, se elige como la acción con el valor q más alto o como una...

machine-learning reinforcement-learning q-learning deep-rl

17

¿Por qué se eligió la letra Q en Q-learning?

¿Por qué se eligió la letra Q en nombre de Q-learning? La mayoría de las letras se eligen como abreviatura, como ππ\pi representando política y vvv representa valor. Pero no creo que Q sea una abreviatura de ninguna

terminology reinforcement-learning history q-learning

16

¿El aprendizaje supervisado es un subconjunto del aprendizaje de refuerzo?

Parece que la definición de aprendizaje supervisado es un subconjunto de aprendizaje de refuerzo, con un tipo particular de función de recompensa que se basa en datos etiquetados (a diferencia de otra información en el entorno). ¿Es esta una representación

machine-learning terminology reinforcement-learning supervised-learning definition

15

¿En qué tipo de situaciones de la vida real podemos usar un algoritmo de bandido multi-brazo?

Los bandidos de brazos múltiples funcionan bien en situaciones en las que tienes opciones y no estás seguro de cuál maximizará tu bienestar. Puede usar el algoritmo para algunas situaciones de la vida real. Como ejemplo, el aprendizaje puede ser un buen campo: Si un niño está aprendiendo...

algorithms reinforcement-learning multiarmed-bandit

14

Preguntas sobre Q-Learning usando redes neuronales

He implementado Q-Learning como se describe en, http://web.cs.swarthmore.edu/~meeden/cs81/s12/papers/MarkStevePaper.pdf Para aprox. P (S, A) Uso una estructura de red neuronal como la siguiente, Activación sigmoidea Entradas, número de entradas + 1 para neuronas de acción (todas las entradas...

machine-learning neural-networks reinforcement-learning

14

¿Cuál es la diferencia entre episodio y época en el aprendizaje profundo de Q?

Estoy tratando de entender el famoso artículo "Playing Atari with Deep Reinforcement Learning" ( pdf ). No estoy claro acerca de la diferencia entre una época y un episodio . En el algoritmo , el bucle externo está sobre episodios , mientras que en la figura 2 el eje x está etiquetado como epoch ....

neural-networks terminology reinforcement-learning q-learning

14

GAM vs LOESS vs splines

Contexto : Quiero trazar una línea en un diagrama de dispersión que no aparece paramétrico, por lo tanto, estoy usando geom_smooth()en ggploten R. Devuelve automáticamente. geom_smooth: method="auto" and size of largest group is >=1000, so using gam with formula: y ~ s(x, bs = "cs"). Use 'method...

r gam splines loess r data-visualization boxplot mathematical-statistics theory sufficient-statistics machine-learning classification correlation svm feature-selection probability stochastic-processes machine-learning reinforcement-learning

14

¿Por qué siempre hay al menos una política que es mejor o igual a todas las demás políticas?

Aprendizaje de refuerzo: una introducción. Segunda edición, en progreso ., Richard S. Sutton y Andrew G. Barto (c) 2012, pp. 67-68. Resolver una tarea de aprendizaje de refuerzo significa, más o menos, encontrar una política que logre muchas recompensas a largo plazo. Para MDP finitos, podemos...

markov-process reinforcement-learning

13

¿Por qué el aprendizaje de refuerzo profundo es inestable?

En el documento de 2015 de DeepMind sobre el aprendizaje de refuerzo profundo, afirma que "Los intentos anteriores de combinar RL con redes neuronales habían fracasado en gran medida debido al aprendizaje inestable". Luego, el documento enumera algunas causas de esto, en función de las...

machine-learning neural-networks deep-learning reinforcement-learning

13

Algoritmo óptimo para resolver problemas de bandidos armados

He leído sobre varios algoritmos para resolver problemas de bandidos armados n como -greedy, softmax y UCB1, pero tengo algunos problemas para determinar qué enfoque es mejor para minimizar el arrepentimiento.ϵϵ\epsilon ¿Existe un algoritmo óptimo conocido para resolver el problema del bandido...

machine-learning reinforcement-learning multiarmed-bandit