所有版本 - 学术资源搜索

文章

学术资源搜索

获得 4 条结果（用时0.01秒）

Emphatic algorithms for deep reinforcement learning

R Jiang, T Zahavy, Z Xu, A White… - International …, 2021 - proceedings.mlr.press

Off-policy learning allows us to learn about possible policies of behavior from experience
generated by a different behavior policy. Temporal difference (TD) learning algorithms can …

被引用次数：23 相关文章

Emphatic Algorithms for Deep Reinforcement Learning

R Jiang, T Zahavy, Z Xu, A White, M Hessel… - arXiv e …, 2021 - ui.adsabs.harvard.edu

Off-policy learning allows us to learn about possible policies of behavior from experience
generated by a different behavior policy. Temporal difference (TD) learning algorithms can …

Emphatic Algorithms for Deep Reinforcement Learning

R Jiang, T Zahavy, Z Xu, A White… - International …, 2021 - proceedings.mlr.press

Off-policy learning allows us to learn about possible policies of behavior from experience
generated by a different behavior policy. Temporal difference (TD) learning algorithms can …

Emphatic Algorithms for Deep Reinforcement Learning

R Jiang, T Zahavy, Z Xu, A White, M Hessel… - arXiv preprint arXiv …, 2021 - arxiv.org

Off-policy learning allows us to learn about possible policies of behavior from experience
generated by a different behavior policy. Temporal difference (TD) learning algorithms can …

高级搜索

QQ 群

Emphatic algorithms for deep reinforcement learning

Emphatic Algorithms for Deep Reinforcement Learning

Emphatic Algorithms for Deep Reinforcement Learning

Emphatic Algorithms for Deep Reinforcement Learning

引用