内的報酬と敵対的学習によるタスク非依存な注意機構の学習

松嶋 達也

13:50 〜 14:10

[3A1-01] 内的報酬と敵対的学習によるタスク非依存な注意機構の学習

〇松嶋達也¹、大澤昇平¹、松尾豊¹ (1. 東京大学)

キーワード：注意機構、深層強化学習、内的な報酬

近年，人工知能の活用による社会の生産性向上への期待が高まっている．この期待の背景として，深層学習が人工知能技術のブレイクスルーになったことが挙げられる．しかし，実世界環境で活用可能な人工知能の構築には，いくつかの課題が残されている．特に，観測が部分的であること，タスクに対する報酬の設計が難しいことの2 点が挙げられる．

部分的な観測を扱うニューラルネットワークのモデルとして，注意機構を持つモデルが提案されている．しかし，これらのモデルでは，注意機構の学習がタスクから定義される外的な報酬信号を用いた強化学習によって行われており，外部からの報酬信号が得られない問題設定下では注意機構の学習を行うことができない．

本研究では，注意機構の学習に外的な報酬を用いる代わりに，観測に対する予測の誤差を注意機構の内的な報酬として与え，観測の予測モデルと注意機構を敵対的な学習により訓練する手法を提案する．

講演情報

[3A1] 機械学習-深層学習(4)

[3A1-01] 内的報酬と敵対的学習によるタスク非依存な注意機構の学習