Alexander Pan 个人学术档案 - 学术资源搜索

引用次数

	总计	2019 年至今
引用	345	344
h 指数	7	7
i10 指数	5	5

0

240

120

60

180

20222023202412 105 222

开放获取的出版物数量

1 篇文章

0 篇文章

可查看的文章

无法查看的文章

根据资助方的强制性开放获取政策

合著作者

Dan HendrycksDirector of the Center for AI Safety在 berkeley.edu 的电子邮件经过验证
Jacob SteinhardtStanford University在 cs.stanford.edu 的电子邮件经过验证
Yuanyuan ShiAssistant Professor, UCSD在 ucsd.edu 的电子邮件经过验证

Alexander Pan

Alexander Pan

在 berkeley.edu 的电子邮件经过验证 - 首页

artificial intelligence machine learning


标题按引用次数排序按年份排序按标题排序	引用次数引用次数	年份
Representation engineering: A top-down approach to ai transparency A Zou, L Phan, S Chen, J Campbell, P Guo, R Ren, A Pan, X Yin, ... arXiv preprint arXiv:2310.01405, 2023	115	2023
The effects of reward misspecification: Mapping and mitigating misaligned models A Pan, K Bhatia, J Steinhardt arXiv preprint arXiv:2201.03544, 2022	97	2022
Do the rewards justify the means? measuring trade-offs between rewards and ethical behavior in the machiavelli benchmark A Pan, JS Chan, A Zou, N Li, S Basart, T Woodside, H Zhang, S Emmons, ... International Conference on Machine Learning, 26837-26867, 2023	82	2023
Foundational challenges in assuring alignment and safety of large language models U Anwar, A Saparov, J Rando, D Paleka, M Turpin, P Hase, ES Lubana, ... arXiv preprint arXiv:2404.09932, 2024	23	2024
The wmdp benchmark: Measuring and reducing malicious use with unlearning N Li, A Pan, A Gopal, S Yue, D Berrios, A Gatti, JD Li, AK Dombrowski, ... arXiv preprint arXiv:2403.03218, 2024	12	2024
Feedback loops with language models drive in-context reward hacking A Pan, E Jones, M Jagadeesan, J Steinhardt arXiv preprint arXiv:2402.06627, 2024	8	2024
Improving robustness of reinforcement learning for power system control with adversarial training A Pan, Y Lee, H Zhang, Y Chen, Y Shi arXiv preprint arXiv:2110.08956, 2021	8	2021

系统目前无法执行此操作，请稍后再试。

文章 1–7