15:50 〜 16:10
[3D4-OS-4b-01] 階層型強化学習 RGoal アーキテクチャへの再帰呼び出し用スタックの導入
キーワード:階層型強化学習、モデルベース強化学習、ゼロショット学習
人間は何か目的を達成するために適切なサブゴールを設定できる。
さらに必要に応じてそのサブゴールを再帰的に設定することができ、その再帰の深さには制約がないように見える。
我々はこれまでに、この振る舞いにヒントを得た階層型強化学習の新しいアーキテクチャとして、RGoal アーキテクチャを提案した。
本稿では、サブルーチンの再利用性を高めるために、
アーキテクチャに呼び出し用スタックを導入する方法を提案する。
そして、マルチタスク環境での迷路タスクにより性能を評価した。
その結果、スタックの深さの最大値が大きいほど、収束が早くなる傾向がみられた。
今後このアーキテクチャを拡張し、脳の前頭前野周辺の情報処理機構のモデルを構築することを目指す。
さらに必要に応じてそのサブゴールを再帰的に設定することができ、その再帰の深さには制約がないように見える。
我々はこれまでに、この振る舞いにヒントを得た階層型強化学習の新しいアーキテクチャとして、RGoal アーキテクチャを提案した。
本稿では、サブルーチンの再利用性を高めるために、
アーキテクチャに呼び出し用スタックを導入する方法を提案する。
そして、マルチタスク環境での迷路タスクにより性能を評価した。
その結果、スタックの深さの最大値が大きいほど、収束が早くなる傾向がみられた。
今後このアーキテクチャを拡張し、脳の前頭前野周辺の情報処理機構のモデルを構築することを目指す。