Preguntas etiquetadas con reinforcement-learning

12

¿Cuándo se prefieren los métodos de Monte Carlo sobre los de diferencia temporal?

Últimamente he estado investigando mucho sobre el aprendizaje por refuerzo. Seguí el aprendizaje de refuerzo de Sutton y Barto : una introducción para la mayor parte de esto. Sé qué son los procesos de decisión de Markov y cómo se puede utilizar el aprendizaje de programación dinámica (DP), Monte...

monte-carlo reinforcement-learning temporal-difference

12

Cómo ajustar pesos en valores Q con aproximación de función lineal

En el aprendizaje por refuerzo, la aproximación de función lineal a menudo se usa cuando hay grandes espacios de estado. (Cuando las tablas de búsqueda se vuelven inviables). La forma del valor con aproximación de función lineal viene dada porQ -Q−Q- Q ( s , a ) = w1F1( s , a ) + w2F2( s , a ) +...

machine-learning feature-selection reinforcement-learning

12

¿Por qué la reproducción de experiencia requiere un algoritmo fuera de la política?

En el documento que presenta DQN " Playing Atari with Deep Reinforcement Learning ", mencionó: Tenga en cuenta que cuando se aprende por repetición de experiencia, es necesario aprender fuera de la política (porque nuestros parámetros actuales son diferentes a los utilizados para generar la...

reinforcement-learning

12

Traducción del problema de aprendizaje automático al marco de regresión

Supongamos que tengo un panel de variables explicativas , para , , así como un vector de variables dependientes de resultados binarios . Por lo tanto, solo se observa en el momento final y no en ningún momento anterior. El caso totalmente general es tener múltiples para para cada unidad en cada...

regression machine-learning reinforcement-learning

11

¿Cuál es la relación entre la teoría de juegos y el aprendizaje por refuerzo?

Estoy interesado en el aprendizaje de refuerzo (profundo) (RL) . Antes de sumergirme en este campo, ¿debería tomar un curso de Teoría de juegos (GT) ? ¿Cómo se relacionan GT y RL

deep-learning reinforcement-learning game-theory

11

¿Cuál es la política de implementación en el documento de AlphaGo?

El papel está aquí . La política de implementación ... es una política lineal de softmax basada en características locales rápidas, calculadas incrementalmente y basadas en patrones ... No entiendo qué es la política de implementación y cómo se relaciona con la red de políticas de seleccionar...

machine-learning monte-carlo reinforcement-learning games

11

Q-learning con Neural Network como aproximación de funciones

Estoy tratando de usar una red neuronal para aproximar el valor Q en Q-learning como en Preguntas sobre Q-Learning usando redes neuronales . Como se sugiere en la primera respuesta, estoy usando una función de activación lineal para la capa de salida, mientras sigo usando la función de activación...

neural-networks reinforcement-learning

11

¿Cómo calcular exactamente la función de pérdida profunda de Q-Learning?

Tengo una duda sobre cómo se entrena exactamente la función de pérdida de una red Deep Q-Learning. Estoy usando una red de alimentación de 2 capas con capa de salida lineal y capas ocultas relu. Supongamos que tengo 4 acciones posibles. Por lo tanto, la salida de mi red para el estado actual es ....

least-squares deep-learning loss-functions reinforcement-learning q-learning

10

¿Se puede entrenar un modelo de P (Y | X) a través del descenso de gradiente estocástico a partir de muestras de P (X) sin iid y muestras de P (Y | X)?

Cuando se entrena un modelo parametrizado (por ejemplo, para maximizar la probabilidad) a través del descenso de gradiente estocástico en algún conjunto de datos, se supone comúnmente que las muestras de entrenamiento se extraen de la distribución de datos de entrenamiento. Entonces, si el objetivo...

machine-learning conditional-probability reinforcement-learning gradient-descent

10

¿Por qué el algoritmo de iteración de política converge a la función óptima de política y valor?

Estaba leyendo las notas de la conferencia de Andrew Ng sobre el aprendizaje por refuerzo, y estaba tratando de entender por qué la iteración de políticas convergía con la función de valor óptimo y la política óptima .V∗V∗V^*π∗π∗\pi^* La iteración de la política de recuperación...

reinforcement-learning policy-iteration

9

¿Por qué (y cuándo) uno tiene que aprender la función de recompensa de las muestras en el aprendizaje por refuerzo?

En el aprendizaje por refuerzo, tenemos una función de recompensa que informa al agente qué tan bien están funcionando sus acciones y estados actuales. En una configuración general, la función de recompensa es una función de tres variables: Estado actual SSS Acción actual en el estado actual...

machine-learning reinforcement-learning

9

Descripción general sobre algoritmos de aprendizaje por refuerzo

Actualmente estoy buscando una visión general sobre los algoritmos de aprendizaje por refuerzo y tal vez una clasificación de ellos. Pero al lado de Sarsa y Q-Learning + Deep Q-Learning realmente no puedo encontrar ningún algoritmo popular. Wikipedia me da una visión general sobre diferentes...

reinforcement-learning q-learning

9

Aprendizaje de refuerzo en un entorno no estacionario.

P1: ¿Existen métodos comunes o aceptados para tratar el entorno no estacionario en el aprendizaje por refuerzo en general? P2: en mi gridworld, la función de recompensa cambia cuando se visita un estado. Cada episodio, las recompensas se restablecen al estado inicial. Todo lo que quiero que mi...

markov-process reinforcement-learning stationarity q-learning

9

Aprendizaje de refuerzo en datos históricos

He estado trabajando para aprender la política óptima de comunicaciones para los clientes (qué notificaciones enviar, cuántas enviar y cuándo enviar). Tengo datos históricos de notificaciones pasadas enviadas (con marcas de tiempo) y sus actuaciones. Intentaba aplicar RL a este problema para...

reinforcement-learning

9

¿Cómo interpreto una curva de supervivencia del modelo de riesgo de Cox?

¿Cómo interpreta una curva de supervivencia del modelo de riesgo proporcional de Cox? En este ejemplo de juguete, supongamos que tenemos un modelo de riesgo proporcional de Cox ageen kidneydatos variables y generamos la curva de supervivencia. library(survival) fit <- coxph(Surv(time,...

r survival cox-model likelihood machine-learning deep-learning generative-models machine-learning reinforcement-learning q-learning regression multicollinearity convergence beta-distribution bernoulli-distribution machine-learning self-study pattern-recognition neural-networks stochastic-processes linear

9

¿Algún código de ejemplo del algoritmo REINFORCE propuesto por Williams?

¿Alguien sabe un ejemplo de Algoritmo Williams propuesto en el documento "Una clase de algoritmos de estimación de gradiente para el aprendizaje de refuerzo en redes neuronales"

reinforcement-learning

9

¿Qué tan eficiente es Q-learning con redes neuronales cuando hay una unidad de salida por acción?

Antecedentes: estoy usando la aproximación del valor Q de la red neuronal en mi tarea de aprendizaje de refuerzo. El enfoque es exactamente el mismo que el descrito en esta pregunta , sin embargo, la pregunta en sí es diferente. En este enfoque, el número de resultados es el número de acciones...

machine-learning neural-networks reinforcement-learning q-learning

8

¿Es una política siempre determinista en el aprendizaje por refuerzo?

En el aprendizaje por refuerzo, ¿es una política siempre determinista, o es una distribución de probabilidad sobre las acciones (de las cuales tomamos muestras)? Si la política es determinista, ¿por qué no es la función de valor, que se define en un estado dado para una política dada siguiente...

reinforcement-learning deterministic-policy stochastic-policy

8

¿Por qué no hay probabilidad de transición en Q-Learning (aprendizaje de refuerzo)?

En el aprendizaje por refuerzo, nuestro objetivo es optimizar la función de valor de estado o la función de valor de acción, que se definen de la siguiente

reinforcement-learning q-learning

8

Diferencia entre programación dinámica y aprendizaje de diferencia temporal en aprendizaje de refuerzo

En el aprendizaje por refuerzo, ¿cuál es la diferencia entre la programación dinámica y el aprendizaje por diferencia

reinforcement-learning