18:00 〜 18:20
[1G5-OS-21b-04] 世界モデルにおける未知の環境への転移
キーワード:世界モデル
モデルベース強化学習の一つである世界モデルは,エージェントの行動から生じる環境の遷移を予測するモデルである. 世界モデルを用いることでサンプル効率の向上や未知のタスクへの適応を向上させることが期待されている. しかし,世界モデルは他の強化学習モデルに比べて規模が大きく,モデルの学習時間が長くなることや,モデルの実行が計算機の制約を受けることが懸念される.そのため,モデルの学習の効率化とモデルの規模の縮小を両立させるために転移学習とモデル圧縮を適用することで世界モデルの実用性を高めることを考えた. 本調査の目的は上記の2つの手法の適用による世界モデルの性能への影響を検証にある.調査の結果2つの示唆が得られた.(1)提案手法(モデル圧縮 + 転移学習手法)を適用した場合の方が,モデル圧縮を適用せず目的のタスク単体で学習した場合よりも性能が高くなる可能性があること.(2)提案手法はハイパーパラメタの変更に頑健な可能性があること,である.
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。