Mutation-driven follow the regularized leader for last-iterate convergence in zero-sum games K Abe, M Sakamoto, A Iwasaki Uncertainty in Artificial Intelligence, 1-10, 2022 | 15 | 2022 |
Last-iterate convergence with full and noisy feedback in two-player zero-sum games K Abe, K Ariu, M Sakamoto, K Toyoshima, A Iwasaki arXiv preprint arXiv:2208.09855, 2022 | 13 | 2022 |
Filtered direct preference optimization T Morimura, M Sakamoto, Y Jinnai, K Abe, K Air arXiv preprint arXiv:2404.13846, 2024 | 4 | 2024 |
クールノー競争におけるマルチエージェント強化学習に関する研究 豊島健太郎, 坂本充生, 阿部拳之, 岩崎敦 第 84 回全国大会講演論文集 2022 (1), 11-12, 2022 | 1 | 2022 |
二人零和ゲームにおける突然変異駆動型正則化先導者追従法の終極反復収束 阿部拳之, 豊島健太郎, 坂本充生, 岩崎敦 情報処理学会論文誌 65 (5), 968-979, 2024 | | 2024 |
RLHF における分布シフトの評価 坂本充生, 森村哲郎, 陣内佑, 阿部拳之, 蟻生開人 人工知能学会全国大会論文集 第 38 回 (2024), 1B3GS202-1B3GS202, 2024 | | 2024 |
悲観的な RLHF 森村哲郎, 坂本充生 人工知能学会全国大会論文集 第 38 回 (2024), 4Xin213-4Xin213, 2024 | | 2024 |
A Slingshot Approach to Learning in Monotone Games K Abe, K Ariu, M Sakamoto, A Iwasaki | | 2023 |
二人零和展開型ゲームにおける突然変異付き乗算型重み更新に関する研究 坂本充生, 阿部拳之, 蟻生開人, 岩崎敦 人工知能学会全国大会論文集 第 37 回 (2023), 2T4GS502-2T4GS502, 2023 | | 2023 |
二人零和ゲームにおける突然変異駆動型 Follow-The-Regularized-Leader の終極反復収束 豊島健太郎, 阿部拳之, 坂本充生, 岩崎敦 IEICE Conferences Archives, 2022 | | 2022 |
突然変異駆動型 Follow-The-Regularized-Leader の終極反復収束 豊島健太郎, 阿部拳之, 坂本充生, 岩崎敦 | | 2022 |
二人零和ゲームにおける突然変異付きレプリケータダイナミクスを用いた学習アルゴリズムに関する研究 坂本充生, 豊島健太郎, 阿部拳之, 岩崎敦 人工知能学会全国大会論文集 第 36 回 (2022), 2O6GS502-2O6GS502, 2022 | | 2022 |
見間違えのある繰り返し囚人のジレンマにおける方策勾配法に関する研究 坂本充生, 阿部拳之, 岩崎敦 IEICE Conferences Archives, 2021 | | 2021 |
見間違えのある繰り返し囚人のジレンマにおける Q 学習に関する研究 坂本充生, 岩崎敦 人工知能学会全国大会論文集 第 35 回 (2021), 2I1GS5a03-2I1GS5a03, 2021 | | 2021 |
Adaptively Perturbed Mirror Descent for Learning in Games K Abe, K Ariu, M Sakamoto, A Iwasaki Forty-first International Conference on Machine Learning, 0 | | |
Mutation-Driven Follow the Regularized Leader for Last-Iterate Convergence in Zero-Sum Games (Supplementary Material) K Abe, M Sakamoto, A Iwasaki | | |