15:30 〜 15:50
[2B5-GS-2-01] Random Network Distillation を用いた目的志向探索
キーワード:強化学習、深層学習、意思決定、探索
深層強化学習は囲碁やビデオゲームなどで人間と同等以上の成績を残してきた。一方でエージェントの学習に大量のデータが必要であり、その探索効率には改善の余地がある。特に産業応用の際には、一定の収益水準(目的)へ速やかに到達可能な探索が重視される。我々は目的到達を優先する人間の認知特性に着目し、Regional Stochastic Risk- sensitive Satisficing (RS2) と呼ばれる手法を強化学習に組み込んだ。RS2 では各行動の選択回数を信頼度(不確実性)として定義し、これを参照してエージェントの将来の探索分布を算出する。ただし複雑な環境下では選択回数の正確なカウントが難しいため、クラス分類などで近似して信頼度を算出する必要がある。本研究では、状態遷移の既知度合いを推定し内発的動機付けにおける報酬ボーナスとして活用する手法である Random Network Distillation (RND) を信頼度に応用した。RND には収益ターゲットが変化するという課題があったが、本研究では RND を信頼度推定に間接的に利用し RS2 と組み合わせることで、収益ターゲットを変えず成績を向上させた。
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。