方策とモデルのエントロピ正則を導入したオフラインモデルベース模倣学習

内部 英治

09:20 〜 09:40

[2Q1-OS-27a-02] 方策とモデルのエントロピ正則を導入したオフラインモデルベース模倣学習

〇内部英治¹ (1. 国際電気通信基礎技術研究所)

キーワード：オフライン模倣学習、モデルベース順・逆強化学習、エントロピ正則

Model-Based Entropy-Regularized Imitation Learning (MB-ERIL)は方策と状態遷移モデルのエントロピ正則を導入したオンラインのモデルベース敵対的生成模倣学習である．Online-MB-ERILはエキスパートデータ以外に学習エージェントの方策が実環境やモデルとそれぞれインタラクションして得られる3種類のデータから学習する．本報告では，学習エージェントと実環境から得られるデータを使用しないことで，オフライン学習の形式にした場合について考察する．次にPositive and Unlabeled data学習の考えを導入したOffline-MB-ERILを提案する．準最適なデータが与えられたとき，Offline-MB-ERILはラベルなしデータとして利用することで，方策やモデルの推定性能を改善することができる．視覚ベースの腕のリーチング課題を通して，Online-MB-ERILよりもOffline-MB-ERILの方が準最適データを有効に利用できることを示す．

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

講演情報

[2Q1-OS-27a] 強化学習の新展開

[2Q1-OS-27a-02] 方策とモデルのエントロピ正則を導入したオフラインモデルベース模倣学習

パスワード