複数の方策を表現する強化学習エージェント

鈴木 匠海; 高橋 達二; 甲野 佑

[3Win5-16] 複数の方策を表現する強化学習エージェント

〇鈴木匠海¹、高橋達二²、甲野佑² (1.東京電機大学大学院、2.東京電機大学)

キーワード：生成モデル、強化学習、機械学習

人間は多様な方策をその時々切り替えている。仮に実は究極的唯一の行動方策が存在しても、それを自己認識することはない。それは方策の基となる人間の潜在的な状態は認識できない上に、内的外的な干渉で変化するからである。内的な変化であれば階層型強化学習など表現しうるアルゴリズムは存在する。外的な助言や命令などの干渉でエージェントの内部状態を変更するモデルに関しては汎用的なアルゴリズムが存在しない。そこで本研究と同時期に新たに提案されている行動意図を後付けで推定する行動方策の生成モデルに着目する。これは主たる行動パターンの学習である強化学習と生成モデルを組み合わせて、膨大な試行錯誤を余すことなく活用し、潜在変数として多様な方策を生成できるモデルである。一方でこの生成モデルの具体的な活用法は提示されていない。本研究ではあらかじめ軌跡のリストデータから一部を欠損させた学習をすることで、軌跡の断片情報から任意の方策を生成を検証する。具体的にはトイタスク環境においてシミュレーションをおこない、学習済みの方策生成モデルにおいて断片的な状態行動から方策を生成できることを確認した。

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

講演情報

[3Win5] ポスターセッション3

[3Win5-16] 複数の方策を表現する強化学習エージェント

パスワード