09:00 〜 10:40
[4Rin1-10] 階層型強化学習MLSHにおける枝刈りによるサブポリシ数調整
キーワード:強化学習、階層型強化学習
階層化強化学習の一つであるMLSHは、タスク集合があるタスク分散からサンプルされることを前提にサブポリシという形で過去のタスクに対する知識を保持することで、新しいタスクに対する学習を高速化する。この際、サブポリシの数はタスクに内在するサブゴールの数と一致していることが望ましいが、タスクのサブゴールの数は一般に事前に知ることはできない。本稿はこの問題を解決するために、十分な数のサブポリシ数でスタートし、徐々に枝刈りを行うことで適切なサブポリシ数に至ることを目指す手法を提案する。2D-bandid 問題を用いて本手法を評価したところ、多くの場合に適切な数のサブポリシ数を見出すことができた。