16:30 〜 16:50
[2J5-GS-2-03] 強化学習における遷移確率を用いたドメイン適応による方策の転移
キーワード:強化学習、転移学習、ドメイン適応、表現学習
強化学習を実世界で活用する取り組みが盛んになっている.エージェントを実世界で環境と対話させて学習するには膨大なコストが掛かるため,ソースタスクと呼ばれるシミュレータ等のコストの低い環境で事前学習を行うことで,ターゲットタスクと呼ばれる運用環境での対話を短縮する方法が注目されている.
本研究ではソースタスクとターゲットタスクに状態観測の形式の点で差異が生じる状況に着目する.
提案手法では状態の潜在表現を求めるエンコーダを学習し,潜在表現から行動を出力する方策を学習する.提案手法は遷移確率を用いて状態観測の形式変化に頑健な潜在表現を学習することで,ソースタスクで学習した方策の転移を可能にし,ターゲットタスクでの環境との対話が限られる場合におけるエージェントの性能を改善する.実験ではターゲットタスクでの対話が限られる場合において,提案手法がより高い性能を得られることを示す.
本研究ではソースタスクとターゲットタスクに状態観測の形式の点で差異が生じる状況に着目する.
提案手法では状態の潜在表現を求めるエンコーダを学習し,潜在表現から行動を出力する方策を学習する.提案手法は遷移確率を用いて状態観測の形式変化に頑健な潜在表現を学習することで,ソースタスクで学習した方策の転移を可能にし,ターゲットタスクでの環境との対話が限られる場合におけるエージェントの性能を改善する.実験ではターゲットタスクでの対話が限られる場合において,提案手法がより高い性能を得られることを示す.
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。