[3Win5-16] Reinforcement Learning agent representing multiple policies
Keywords:Generative Model, Reinforcement Learning, Machine Learning
人間は多様な方策をその時々切り替えている。仮に実は究極的唯一の行動方策が存在しても、それを自己認識することはない。それは方策の基となる人間の潜在的な状態は認識できない上に、内的外的な干渉で変化するからである。内的な変化であれば階層型強化学習など表現しうるアルゴリズムは存在する。外的な助言や命令などの干渉でエージェントの内部状態を変更するモデルに関しては汎用的なアルゴリズムが存在しない。そこで本研究と同時期に新たに提案されている行動意図を後付けで推定する行動方策の生成モデルに着目する。これは主たる行動パターンの学習である強化学習と生成モデルを組み合わせて、膨大な試行錯誤を余すことなく活用し、潜在変数として多様な方策を生成できるモデルである。一方でこの生成モデルの具体的な活用法は提示されていない。本研究ではあらかじめ軌跡のリストデータから一部を欠損させた学習をすることで、軌跡の断片情報から任意の方策を生成を検証する。具体的にはトイタスク環境においてシミュレーションをおこない、学習済みの方策生成モデルにおいて断片的な状態行動から方策を生成できることを確認した。
Authentication for paper PDF access
A password is required to view paper PDFs. If you are a registered participant, please log on the site from Participant Log In.
You could view the PDF with entering the PDF viewing password bellow.