14:00 〜 14:20
[2M4-OS-19b-03] モデルベース・モデルフリー強化学習の調停について
キーワード:モデルベース強化学習、モデルフリー強化学習
強化学習は環境のモデルを陽に推定し学習に利用するモデルベース法と,実際または仮想的に得られた状態行動遷移対から学習するモデルフリー法に大別できる.我々はこれまでに性質の異なる複数のモデルフリー強化学習器とモデルベース強化学習器を並列に学習させつつ,性能に応じて学習器を非同期に切り替える手法を提案し,単純なアルゴリズムが複雑なアルゴリズムの学習に貢献することを示した.しかしモジュールの切り替え条件は価値関数の値に応じて確率的に決定され,モデルベースとモデルフリーの切り替えそのものを学習することは検討していなかった.また状態の予測誤差や報酬予測誤差など重要な要素を考慮していなかった.そこで本研究では価値関数に応じて切り替える方法、状態や価値の予測誤差に応じて切り替える方法,両者の重みづけで切り替える方法,さらに両者の重みを学習する方法を比較検討し、学習効率,環境の変化に対する追従能力,さらに神経科学の観点からの考察を行う.
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。