[2Win5-14] 内発的動機付けと対照学習の改良によるスパースな報酬環境における探索効率向上
キーワード:内発的動機付け、対照学習
本研究では、報酬が希薄な強化学習環境における探索効率を向上させるため、内発的動機付けと対照学習の改良手法を提案する。内発的動機付けは、予測誤差に基づく内部報酬を提供することで、エージェントを新奇な状態に導く。しかし、既存の手法(Self-supervised Network Distillation, SND)は、エージェントの不規則な動作によるノイズに脆弱であった。これを解決するため、時間的に近接したフレームを正例として扱うことで対照学習を強化するという改良を導入した。これにより、新奇性の検出を向上させ、継続的な探索を実現した。Procgenベンチマークなどの報酬が希薄な環境での実験では、ベースラインモデルと比較して学習ステップが半分で外部報酬を獲得できるなど改善が確認された。
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。