13:40 〜 14:00
[2D3-E-4-02] 非定常環境における先駆者からのエミュレーション学習の柔軟性
キーワード:社会学習、強化学習、満足化
イミテーション(模倣)ではエージェントは他のエージェント(エキスパート)の特定の状態行動対(毎ステップの意思決定)を直接参照して学習する. イミテーションの強化学習の実装としては逆強化学習が挙げられる. それに対して我々は, 社会学習の1つであるエミュレーション(対抗模倣)のための新しいフレームワークを提案する. エミュレーションとはエキスパートの到達収益のみ与えられ, その結果を再現する行動手順を自律的に探索する手法で, 社会的な模倣学習の一種と見做せる. 本研究では満足化と呼ばれる人間の探索のモデルを用いてエミュレーションを強化学習の枠組みで実装する. 我々は, エミュレーション学習アルゴリズムが, しばしば観察される最適性と柔軟性のトレードオフ的関係を破り, 非定常強化学習タスクにおいて適切に学習・行動できることを示す.