Random Network Distillation を用いた目的志向探索

坪谷 朱音

15:30 〜 15:50

[2B5-GS-2-01] Random Network Distillation を用いた目的志向探索

坪谷朱音¹、高橋達二¹、〇甲野佑¹ (1. 東京電機大学)

キーワード：強化学習、深層学習、意思決定、探索

深層強化学習は囲碁やビデオゲームなどで人間と同等以上の成績を残してきた。一方でエージェントの学習に大量のデータが必要であり、その探索効率には改善の余地がある。特に産業応用の際には、一定の収益水準（目的）へ速やかに到達可能な探索が重視される。我々は目的到達を優先する人間の認知特性に着目し、Regional Stochastic Risk- sensitive Satisficing (RS²) と呼ばれる手法を強化学習に組み込んだ。RS² では各行動の選択回数を信頼度（不確実性）として定義し、これを参照してエージェントの将来の探索分布を算出する。ただし複雑な環境下では選択回数の正確なカウントが難しいため、クラス分類などで近似して信頼度を算出する必要がある。本研究では、状態遷移の既知度合いを推定し内発的動機付けにおける報酬ボーナスとして活用する手法である Random Network Distillation (RND) を信頼度に応用した。RND には収益ターゲットが変化するという課題があったが、本研究では RND を信頼度推定に間接的に利用し RS² と組み合わせることで、収益ターゲットを変えず成績を向上させた。

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

講演情報

[2B5-GS-2] 機械学習：強化学習

[2B5-GS-2-01] Random Network Distillation を用いた目的志向探索

パスワード