Preguntas etiquetadas con q-learning

18

¿Por qué Q-Learning usa epsilon-greedy durante las pruebas?

En el artículo de DeepMind sobre Deep Q-Learning para videojuegos Atari ( aquí ), utilizan un método de épsilon codicioso para la exploración durante el entrenamiento. Esto significa que cuando se selecciona una acción en el entrenamiento, se elige como la acción con el valor q más alto o como una...

17

¿Por qué se eligió la letra Q en Q-learning?

¿Por qué se eligió la letra Q en nombre de Q-learning? La mayoría de las letras se eligen como abreviatura, como ππ\pi representando política y vvv representa valor. Pero no creo que Q sea una abreviatura de ninguna

terminology reinforcement-learning history q-learning

14

¿Cuál es la diferencia entre episodio y época en el aprendizaje profundo de Q?

Estoy tratando de entender el famoso artículo "Playing Atari with Deep Reinforcement Learning" ( pdf ). No estoy claro acerca de la diferencia entre una época y un episodio . En el algoritmo , el bucle externo está sobre episodios , mientras que en la figura 2 el eje x está etiquetado como epoch ....

neural-networks terminology reinforcement-learning q-learning

11

¿Cómo calcular exactamente la función de pérdida profunda de Q-Learning?

Tengo una duda sobre cómo se entrena exactamente la función de pérdida de una red Deep Q-Learning. Estoy usando una red de alimentación de 2 capas con capa de salida lineal y capas ocultas relu. Supongamos que tengo 4 acciones posibles. Por lo tanto, la salida de mi red para el estado actual es ....

least-squares deep-learning loss-functions reinforcement-learning q-learning

9

¿Qué tan eficiente es Q-learning con redes neuronales cuando hay una unidad de salida por acción?

Antecedentes: estoy usando la aproximación del valor Q de la red neuronal en mi tarea de aprendizaje de refuerzo. El enfoque es exactamente el mismo que el descrito en esta pregunta , sin embargo, la pregunta en sí es diferente. En este enfoque, el número de resultados es el número de acciones...

machine-learning neural-networks reinforcement-learning q-learning

9

¿Cómo interpreto una curva de supervivencia del modelo de riesgo de Cox?

¿Cómo interpreta una curva de supervivencia del modelo de riesgo proporcional de Cox? En este ejemplo de juguete, supongamos que tenemos un modelo de riesgo proporcional de Cox ageen kidneydatos variables y generamos la curva de supervivencia. library(survival) fit <- coxph(Surv(time,...

r survival cox-model likelihood machine-learning deep-learning generative-models machine-learning reinforcement-learning q-learning regression multicollinearity convergence beta-distribution bernoulli-distribution machine-learning self-study pattern-recognition neural-networks stochastic-processes linear

9

Aprendizaje de refuerzo en un entorno no estacionario.

P1: ¿Existen métodos comunes o aceptados para tratar el entorno no estacionario en el aprendizaje por refuerzo en general? P2: en mi gridworld, la función de recompensa cambia cuando se visita un estado. Cada episodio, las recompensas se restablecen al estado inicial. Todo lo que quiero que mi...

markov-process reinforcement-learning stationarity q-learning

9

Descripción general sobre algoritmos de aprendizaje por refuerzo

Actualmente estoy buscando una visión general sobre los algoritmos de aprendizaje por refuerzo y tal vez una clasificación de ellos. Pero al lado de Sarsa y Q-Learning + Deep Q-Learning realmente no puedo encontrar ningún algoritmo popular. Wikipedia me da una visión general sobre diferentes...

reinforcement-learning q-learning

8

¿Por qué no hay probabilidad de transición en Q-Learning (aprendizaje de refuerzo)?

En el aprendizaje por refuerzo, nuestro objetivo es optimizar la función de valor de estado o la función de valor de acción, que se definen de la siguiente

reinforcement-learning q-learning