アルファゼロ型強化学習アルゴリズムを用いた最適制御手法の開発

渡部 雅也

15:20 〜 15:40

[1I3-J-2-01] アルファゼロ型強化学習アルゴリズムを用いた最適制御手法の開発

〇渡部雅也¹、楊坤¹、Dinesh Malla²、坂本克好¹、山口浩一¹、曽我部東馬^1,3 (1. 電気通信大学基盤理工学専攻、2. 株式会社　グリッド、3. 電気通信大学 i-パワードエネルギー・システム研究センター)

キーワード：アルファゼロ、強化学習、最適制御

ディープラーニングと強化ラーニングは近年急速に発展しています。ゲームやロボット制御などの分野にディープラーニングを適用する多くの研究が大きな成功を収めています。本論文では、強化学習アルゴリズムであるAlphaZeroをゲームAIのためのこれまでにないレベルの多用途性を最適制御問題に適用する可能性を検証する。従来の制御メカニズムを使用することによって処理することが困難であると考えられているノイズの多い環境下で動作を制御するその能力についての洞察を得ることを目指している。

講演情報

[1I3-J-2] 機械学習: 強化学習の発展

[1I3-J-2-01] アルファゼロ型強化学習アルゴリズムを用いた最適制御手法の開発