2022年度 人工知能学会全国大会(第36回)

講演情報

一般セッション

一般セッション » GS-2 機械学習

[2C5-GS-2] 機械学習:強化学習(2)

2022年6月15日(水) 15:20 〜 17:00 C会場 (Room C-2)

座長:内部 英治(国際電気通信基礎技術研究所)[現地]

15:20 〜 15:40

[2C5-GS-2-01] 系列モデリング型強化学習に対する将来軌跡予測を用いた長期計画の導入

〇森下 皓文1、森尾 学1、尾崎 太亮 1、額賀 信尾1 (1. 日立製作所)

キーワード:強化学習、系列モデリング、トランスフォーマー、ゲームAI、制御

近年,強化学習の問題が系列モデリング問題として定式化しなおされ,Transformer等の強力な系列学習器が利用できるようになった.現行の定式化では,過去の軌跡(行動・状態・報酬の履歴)から次の行動を予測する.しかし,強化学習の目的は一連の行動選択から得られる報酬和を最大化することであるので,長期の将来に渡る計画を織り込んだ上の行動選択が重要だと考えられてきた.
 そこで本研究では,系列モデリング型強化学習に対して将来の計画を取り入れる.まず,現行の定式化を一般化して,将来軌跡上の複数の行動・状態・報酬を予測するマルチタスク問題を定式化する.更に,この問題を解くため,ダミー入力トークンを用いてTransformerを将来方向に拡張したモデルを提案する.本モデルに対して将来軌跡の教示を与えることにより,想像上の将来軌跡が中間層表現として獲得されていく.更に,本モデルはこれら将来軌跡表現を自己注意機構によって参照・集約する.以上の機構により,長期の将来を織り込んだ上での行動選択が実現される.提案手法は,AtariとOpenAI Gymのタスクにおいて,将来計画を考慮しないベースラインを上回った.

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

パスワード