所有版本 - 学术资源搜索

文章

学术资源搜索

获得 2 条结果（用时0.02秒）

Robust preference optimization through reward model distillation

A Fisch, J Eisenstein, V Zayats, A Agarwal… - arXiv preprint arXiv …, 2024 - arxiv.org

Language model (LM) post-training (or alignment) involves maximizing a reward function
that is derived from preference annotations. Direct Preference Optimization (DPO) is a …

被引用次数：3 相关文章

Robust Preference Optimization through Reward Model Distillation

A Fisch, J Eisenstein, V Zayats, A Agarwal… - arXiv e …, 2024 - ui.adsabs.harvard.edu

Abstract Language model (LM) post-training (or alignment) involves maximizing a reward
function that is derived from preference annotations. Direct Preference Optimization (DPO) is …

高级搜索

QQ 群

Robust preference optimization through reward model distillation

Robust Preference Optimization through Reward Model Distillation

引用