15:40 〜 16:00
[2J4-GS-8c-02] モデルフリーとモデルベース強化学習のための非同期並列学習
キーワード:深層強化学習、非同期制御、モデルフリーとモデルベース強化学習
強化学習は環境のモデルを陽に推定し学習に利用するモデルベース法と,実際または仮想的に得られた状態行動遷移対から学習するモデルフリー法に大別できる.我々はこれまでに性質の異なる複数のモデルフリー強化学習器とモデルベース強化学習器を並列に学習させつつ,性能に応じて学習器を動的に切り替える手法を提案し,単純なアルゴリズムが複雑なアルゴリズムの学習に貢献することを示した.しかし各学習器が意思決定に要する計算時間を考慮していなかったため、制御周期の短い単純なモデルフリー強化学習器を用いる利点を十分に示すことができなかった.
そこで本研究では各学習器の制御周期の違いを考慮した非同期並列強化学習法を提案する.主要な貢献は各学習器で収集した経験を保存するバッファの分離と,制御周期の違いを吸収する経験再生バッファの変換である.提案手法をベンチマーク課題であるMuJoCoに適用し制御周期を考慮しない場合と比較した.学習の初期段階では制御周期の短いモデルベース法,学習中期では複雑なモデルベース法,学習後期ではモデルフリー法が選択される結果が得られた.
そこで本研究では各学習器の制御周期の違いを考慮した非同期並列強化学習法を提案する.主要な貢献は各学習器で収集した経験を保存するバッファの分離と,制御周期の違いを吸収する経験再生バッファの変換である.提案手法をベンチマーク課題であるMuJoCoに適用し制御周期を考慮しない場合と比較した.学習の初期段階では制御周期の短いモデルベース法,学習中期では複雑なモデルベース法,学習後期ではモデルフリー法が選択される結果が得られた.
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。