Wei Xiong 个人学术档案 - 学术资源搜索

引用次数

	总计	2019 年至今
引用	743	743
h 指数	16	16
i10 指数	18	18

480

240

120

360

202120222023202419 38 207 478

开放获取的出版物数量

查看全部

7 篇文章

0 篇文章

可查看的文章

无法查看的文章

根据资助方的强制性开放获取政策

合著作者

Tong ZhangUIUC在 tongzhang-ml.org 的电子邮件经过验证
Han ZhongPeking University在 stu.pku.edu.cn 的电子邮件经过验证
Hanze DongSalesforce Research在 salesforce.com 的电子邮件经过验证
Chengshuai ShiElectrical and Computer Engineering, University of Virginia在 virginia.edu 的电子邮件经过验证
Jipeng ZhangHong Kong University of Science and Technology在 connect.ust.hk 的电子邮件经过验证
Cong ShenAssociate Professor, University of Virginia在 virginia.edu 的电子邮件经过验证
Shizhe DiaoNVIDIA Research在 nvidia.com 的电子邮件经过验证
Yong LinPrinceton University在 princeton.edu 的电子邮件经过验证
Liwei WangProfessor, Peking University在 cis.pku.edu.cn 的电子邮件经过验证
Zhaoran WangAssistant Professor at Northwestern University在 northwestern.edu 的电子邮件经过验证
Zhuoran YangYale University在 yale.edu 的电子邮件经过验证
Rui PanUIUC在 illinois.edu 的电子邮件经过验证
KaShun SHUMThe Hong Kong University of Science and Technology在 connect.ust.hk 的电子邮件经过验证
Chenlu YeHong Kong University of Science and Technology在 connect.ust.hk 的电子邮件经过验证
Hangyu LinFudan University在 fudan.edu.cn 的电子邮件经过验证
Jing YangAssociate Professor of Electrical Engineering, Penn State University在 psu.edu 的电子邮件经过验证
Haoxiang WangResearch Scientist, NVIDIA在 illinois.edu 的电子邮件经过验证
Nan JiangAssistant Professor of Computer Science, UIUC在 illinois.edu 的电子邮件经过验证
Han ZhaoAssistant Professor of Computer Science, University of Illinois at Urbana-Champaign在 illinois.edu 的电子邮件经过验证
Deepanshu GoyalComputer Science and Engineering student, Rajiv Gandhi Institute of Petroleum Technology在 rgipt.ac.in 的电子邮件经过验证

关注

Wei Xiong

其他姓名熊伟

Computer Science, University of Illinois Urbana-Champaign

在 illinois.edu 的电子邮件经过验证 - 首页

Learning Theory RLHF


标题按引用次数排序按年份排序按标题排序	引用次数引用次数	年份
Raft: Reward ranked finetuning for generative foundation model alignment H Dong, W Xiong, D Goyal, Z Yihan, C Winnie, R Pan, S Diao, J Zhang, ... TMLR, 2023	205	2023
Mitigating the Alignment Tax of RLHF Y Lin, H Lin, W Xiong, S Diao, J Liu, J Zhang, R Pan, H Wang, W Hu, ... arXiv preprint arXiv:2309.06256, 2023	55*	2023
Iterative preference learning from human feedback: Bridging theory and practice for rlhf under kl-constraint W Xiong, H Dong, C Ye, Z Wang, H Zhong, H Ji, N Jiang, T Zhang ICML 2024, 2023	52*	2023
Gec: A unified framework for interactive decision making in mdp, pomdp, and beyond H Zhong, W Xiong, S Zheng, L Wang, Z Wang, Z Yang, T Zhang arXiv preprint arXiv:2211.01962, 2022	52*	2022
Nearly minimax optimal offline reinforcement learning with linear function approximation: Single-agent mdp and markov game W Xiong, H Zhong, C Shi, C Shen, L Wang, T Zhang ICLR 2023, 2022	44	2022
Lmflow: An extensible toolkit for finetuning and inference of large foundation models S Diao, R Pan, H Dong, KS Shum, J Zhang, W Xiong, T Zhang NAACL 2024, Best Demo Paper Award, 2023	41	2023
Pessimistic minimax value iteration: Provably efficient equilibrium learning from offline datasets H Zhong, W Xiong, J Tan, L Wang, T Zhang, Z Wang, Z Yang ICML 2022, 2022	41	2022
Decentralized multi-player multi-armed bandits with no collision information C Shi, W Xiong, C Shen, J Yang AISTATS 2020, 2020	41	2020
Maximize to explore: One objective function fusing estimation, planning, and exploration Z Liu, M Lu, W Xiong, H Zhong, H Hu, S Zhang, S Zheng, Z Yang, Z Wang NeurIPS 2023 36, 2024	27*	2024
A Self-Play Posterior Sampling Algorithm for Zero-Sum Markov Games W Xiong, H Zhong, C Shi, C Shen, T Zhang ICML 2022, 2022	25	2022
Heterogeneous Multi-player Multi-armed Bandits: Closing the Gap and Generalization C Shi, W Xiong, C Shen, J Yang NeurIPS 2021, 2021	24	2021
Distributional reinforcement learning for multi-dimensional reward functions P Zhang, X Chen, L Zhao, W Xiong, T Qin, TY Liu NeurIPS 2021, 2021	20	2021
Corruption-Robust Algorithms with Uncertainty Weighting for Nonlinear Contextual Bandits and Markov Decision Processes C Ye, W Xiong, Q Gu, T Zhang ICML 2023, 2022	19	2022
RLHF Workflow: From Reward Modeling to Online RLHF H Dong, W Xiong, B Pang, H Wang, H Zhao, Y Zhou, N Jiang, D Sahoo, ... arXiv preprint arXiv:2405.07863, 2024	18	2024
Arithmetic Control of LLMs for Diverse User Preferences: Directional Preference Alignment with Multi-Objective Rewards H Wang, Y Lin, W Xiong, R Yang, S Diao, S Qiu, H Zhao, T Zhang ACL 2024, 2024	16	2024
PMGT-VR: A decentralized proximal-gradient algorithmic framework with variance reduction H Ye, W Xiong, T Zhang arXiv preprint arXiv:2012.15010, 2020	16	2020
Online Iterative Reinforcement Learning from Human Feedback with General Preference Model C Ye, W Xiong, Y Zhang, N Jiang, T Zhang arXiv preprint arXiv:2402.07314, 2024	15*	2024
DPO Meets PPO: Reinforced Token Optimization for RLHF H Zhong, G Feng, W Xiong, L Zhao, D He, J Bian, L Wang arXiv preprint arXiv:2404.18922, 2024	12	2024
Interpretable Preferences via Multi-Objective Reward Modeling and Mixture-of-Experts H Wang, W Xiong, T Xie, H Zhao, T Zhang arXiv preprint arXiv:2406.12845, 2024	6	2024
Strengthening Multimodal Large Language Model with Bootstrapped Preference Optimization R Pi, T Han, W Xiong, J Zhang, R Liu, R Pan, T Zhang ECCV 2024, 2024	6	2024

系统目前无法执行此操作，请稍后再试。

文章 1–20

每年引用数

重复的引用

合并的引用

添加合著者合著作者

上传 PDF

关注此作者

引用次数

合著作者

引用