Horizon-Free Regret for Linear Markov Decision Processes

文章

学术资源搜索

获得 3 条结果（用时0.02秒）

我的图书馆

Horizon-Free Regret for Linear Markov Decision Processes

在引用文章中搜索

[PDF] arxiv.org

How Does Variance Shape the Regret in Contextual Bandits?

Z Jia, J Qian, A Rakhlin, CY Wei - arXiv preprint arXiv:2410.12713, 2024 - arxiv.org

We consider realizable contextual bandits with general function approximation, investigating
how small reward variance can lead to better-than-minimax regret bounds. Unlike in …

被引用次数：1 相关文章所有 3 个版本

[PDF] arxiv.org

Model-based RL as a Minimalist Approach to Horizon-Free and Second-Order Bounds

Z Wang, D Zhou, J Lui, W Sun - arXiv preprint arXiv:2408.08994, 2024 - arxiv.org

Learning a transition model via Maximum Likelihood Estimation (MLE) followed by planning
inside the learned model is perhaps the most standard and simplest Model-based …

被引用次数：1 相关文章所有 2 个版本

[PDF] arxiv.org

Warm-up Free Policy Optimization: Improved Regret in Linear Markov Decision Processes

A Cassel, A Rosenberg - arXiv preprint arXiv:2407.03065, 2024 - arxiv.org

Policy Optimization (PO) methods are among the most popular Reinforcement Learning (RL)
algorithms in practice. Recently, Sherman et al.[2023a] proposed a PO-based algorithm with …

高级搜索

QQ 群

Horizon-Free Regret for Linear Markov Decision Processes

How Does Variance Shape the Regret in Contextual Bandits?

Model-based RL as a Minimalist Approach to Horizon-Free and Second-Order Bounds

Warm-up Free Policy Optimization: Improved Regret in Linear Markov Decision Processes

引用