Jalaj Bhandari 个人学术档案

引用次数

	总计	2019 年至今
引用	769	761
h 指数	6	6
i10 指数	6	5

200

100

150

201720182019202020212022202320243 4 32 103 153 153 194 125

开放获取的出版物数量

查看全部

1 篇文章

0 篇文章

可查看的文章

无法查看的文章

根据资助方的强制性开放获取政策

合著作者

Daniel RussoColumbia University在 gsb.columbia.edu 的电子邮件经过验证
John CunninghamProfessor, Columbia University在 columbia.edu 的电子邮件经过验证
Francois FaganApplied Research, Facebook在 fb.com 的电子邮件经过验证
Zheqing (Bill) ZhuStanford University, Facebook在 stanford.edu 的电子邮件经过验证
Dmytro KorenkevychMeta AI在 meta.com 的电子邮件经过验证
Vineet GoyalColumbia University在 ieor.columbia.edu 的电子邮件经过验证
Vashist AvadhanulaSr. Applied Scientist, Amazon在 amazon.com 的电子邮件经过验证
assaf zeeviColumbia university在 gsb.columbia.edu 的电子邮件经过验证
Yonathan EfroniMeta, New York在 fb.com 的电子邮件经过验证
Daniel R. JiangMeta & University of Pittsburgh在 meta.com 的电子邮件经过验证
Wanqiao XuStanford University在 stanford.edu 的电子邮件经过验证
Zheng WuUniversity of California, Berkeley在 berkeley.edu 的电子邮件经过验证
Yi WanMeta在 meta.com 的电子邮件经过验证
Nomesh BoliaIIT Delhi在 mech.iitd.ac.in 的电子邮件经过验证
Zhenyu YanDirector, Data Sciences, Adobe在 adobe.com 的电子邮件经过验证
Wuyang DaiBoston University, University of Minnesota在 bu.edu 的电子邮件经过验证

关注

Jalaj Bhandari

Columbia University, Meta AI Research

在 columbia.edu 的电子邮件经过验证 - 首页

Reinforcement learning Machine learning Artificial Intelligence


标题按引用次数排序按年份排序按标题排序	引用次数引用次数	年份
A finite time analysis of temporal difference learning with linear function approximation J Bhandari, D Russo, R Singal Conference on learning theory, 1691-1692, 2018	386	2018
Global optimality guarantees for policy gradient methods J Bhandari, D Russo Operations Research, 2024	250	2024
On the linear convergence of policy gradient methods for finite mdps J Bhandari, D Russo International Conference on Artificial Intelligence and Statistics, 2386-2394, 2021	70	2021
A note on the linear convergence of policy gradient methods J Bhandari, D Russo arXiv preprint arXiv:2007.11120, 79, 2020	25	2020
On the tightness of an LP relaxation for rational optimization and its applications V Avadhanula, J Bhandari, V Goyal, A Zeevi Operations Research Letters 44 (5), 612-617, 2016	13	2016
Elliptical Slice Sampling with Expectation Propagation. F Fagan, J Bhandari, JP Cunningham UAI, 2016	11	2016
Optimizing long-term value for auction-based recommender systems via on-policy reinforcement learning R Xu, J Bhandari, D Korenkevych, F Liu, Y He, A Nikulkov, Z Zhu Proceedings of the 17th ACM Conference on Recommender Systems, 955-962, 2023	6	2023
Optimization foundations of reinforcement learning J Bhandari Columbia University, 2020	6	2020
Pearl: A Production-ready Reinforcement Learning Agent Z Zhu, RS Braz, J Bhandari, D Jiang, Y Wan, Y Efroni, L Wang, R Xu, ... arXiv preprint arXiv:2312.03814, 2023	2	2023
MULTI-OBJECTIVE CUSTOMER JOURNEY OPTIMIZATION J BHANDARI, W DAI, JUN HE, T XU, Z YAN, LEI ZHANG US Patent 20,210,217,047, 2021		2021
Annular Augmentation Sampling F Fagan, J Bhandari, J Cunningham Artificial Intelligence and Statistics, 139-147, 2017		2017
User Scheduling in Cognitive Radio Networks J Bhandari, N Bolia Journal of Computations & Modelling 3 (3), 177-193, 2013		2013

系统目前无法执行此操作，请稍后再试。

文章 1–12

每年引用数

重复的引用

合并的引用

添加合著者合著作者

上传 PDF

关注此作者

引用次数

合著作者

引用