Regularization and variance-weighted regression achieves minimax optimality in linear MDPs:...

文章

学术资源搜索

获得 2 条结果（用时0.03秒）

我的图书馆

Regularization and variance-weighted regression achieves minimax optimality in linear MDPs:...

在引用文章中搜索

[PDF] arxiv.org

Provable and practical: Efficient exploration in reinforcement learning via langevin monte carlo

H Ishfaq, Q Lan, P Xu, AR Mahmood, D Precup… - arXiv preprint arXiv …, 2023 - arxiv.org

We present a scalable and effective exploration strategy based on Thompson sampling for
reinforcement learning (RL). One of the key shortcomings of existing Thompson sampling …

被引用次数：14 相关文章所有 6 个版本

[PDF] arxiv.org

Sample-Efficiency in Multi-Batch Reinforcement Learning: The Need for Dimension-Dependent Adaptivity

E Johnson, C Pike-Burke, P Rebeschini - arXiv preprint arXiv:2310.01616, 2023 - arxiv.org

We theoretically explore the relationship between sample-efficiency and adaptivity in
reinforcement learning. An algorithm is sample-efficient if it uses a number of queries $ n …

被引用次数：1 相关文章所有 5 个版本

高级搜索

QQ 群

Regularization and variance-weighted regression achieves minimax optimality in linear MDPs:...

Provable and practical: Efficient exploration in reinforcement learning via langevin monte carlo

Sample-Efficiency in Multi-Batch Reinforcement Learning: The Need for Dimension-Dependent Adaptivity

引用