关注
Mitsuki Sakamoto
Mitsuki Sakamoto
其他姓名坂本充生
サイバーエージェント
在 cyberagent.co.jp 的电子邮件经过验证
标题
引用次数
引用次数
年份
Mutation-driven follow the regularized leader for last-iterate convergence in zero-sum games
K Abe, M Sakamoto, A Iwasaki
Uncertainty in Artificial Intelligence, 1-10, 2022
152022
Last-iterate convergence with full and noisy feedback in two-player zero-sum games
K Abe, K Ariu, M Sakamoto, K Toyoshima, A Iwasaki
arXiv preprint arXiv:2208.09855, 2022
132022
Filtered direct preference optimization
T Morimura, M Sakamoto, Y Jinnai, K Abe, K Air
arXiv preprint arXiv:2404.13846, 2024
42024
クールノー競争におけるマルチエージェント強化学習に関する研究
豊島健太郎, 坂本充生, 阿部拳之, 岩崎敦
第 84 回全国大会講演論文集 2022 (1), 11-12, 2022
12022
二人零和ゲームにおける突然変異駆動型正則化先導者追従法の終極反復収束
阿部拳之, 豊島健太郎, 坂本充生, 岩崎敦
情報処理学会論文誌 65 (5), 968-979, 2024
2024
RLHF における分布シフトの評価
坂本充生, 森村哲郎, 陣内佑, 阿部拳之, 蟻生開人
人工知能学会全国大会論文集 第 38 回 (2024), 1B3GS202-1B3GS202, 2024
2024
悲観的な RLHF
森村哲郎, 坂本充生
人工知能学会全国大会論文集 第 38 回 (2024), 4Xin213-4Xin213, 2024
2024
A Slingshot Approach to Learning in Monotone Games
K Abe, K Ariu, M Sakamoto, A Iwasaki
2023
二人零和展開型ゲームにおける突然変異付き乗算型重み更新に関する研究
坂本充生, 阿部拳之, 蟻生開人, 岩崎敦
人工知能学会全国大会論文集 第 37 回 (2023), 2T4GS502-2T4GS502, 2023
2023
二人零和ゲームにおける突然変異駆動型 Follow-The-Regularized-Leader の終極反復収束
豊島健太郎, 阿部拳之, 坂本充生, 岩崎敦
IEICE Conferences Archives, 2022
2022
突然変異駆動型 Follow-The-Regularized-Leader の終極反復収束
豊島健太郎, 阿部拳之, 坂本充生, 岩崎敦
2022
二人零和ゲームにおける突然変異付きレプリケータダイナミクスを用いた学習アルゴリズムに関する研究
坂本充生, 豊島健太郎, 阿部拳之, 岩崎敦
人工知能学会全国大会論文集 第 36 回 (2022), 2O6GS502-2O6GS502, 2022
2022
見間違えのある繰り返し囚人のジレンマにおける方策勾配法に関する研究
坂本充生, 阿部拳之, 岩崎敦
IEICE Conferences Archives, 2021
2021
見間違えのある繰り返し囚人のジレンマにおける Q 学習に関する研究
坂本充生, 岩崎敦
人工知能学会全国大会論文集 第 35 回 (2021), 2I1GS5a03-2I1GS5a03, 2021
2021
Adaptively Perturbed Mirror Descent for Learning in Games
K Abe, K Ariu, M Sakamoto, A Iwasaki
Forty-first International Conference on Machine Learning, 0
Mutation-Driven Follow the Regularized Leader for Last-Iterate Convergence in Zero-Sum Games (Supplementary Material)
K Abe, M Sakamoto, A Iwasaki
系统目前无法执行此操作,请稍后再试。
文章 1–16