2024年度 人工知能学会全国大会(第38回)

講演情報

一般セッション

一般セッション » GS-2 機械学習

[2B5-GS-2] 機械学習:強化学習

2024年5月29日(水) 15:30 〜 17:10 B会場 (中ホール)

座長:谷口 忠大(京都大学)

15:30 〜 15:50

[2B5-GS-2-01] Random Network Distillation を用いた目的志向探索

坪谷 朱音1、高橋 達二1、〇甲野 佑1 (1. 東京電機大学)

キーワード:強化学習、深層学習、意思決定、探索

深層強化学習は囲碁やビデオゲームなどで人間と同等以上の成績を残してきた。一方でエージェントの学習に大量のデータが必要であり、その探索効率には改善の余地がある。特に産業応用の際には、一定の収益水準(目的)へ速やかに到達可能な探索が重視される。我々は目的到達を優先する人間の認知特性に着目し、Regional Stochastic Risk- sensitive Satisficing (RS2) と呼ばれる手法を強化学習に組み込んだ。RS2 では各行動の選択回数を信頼度(不確実性)として定義し、これを参照してエージェントの将来の探索分布を算出する。ただし複雑な環境下では選択回数の正確なカウントが難しいため、クラス分類などで近似して信頼度を算出する必要がある。本研究では、状態遷移の既知度合いを推定し内発的動機付けにおける報酬ボーナスとして活用する手法である Random Network Distillation (RND) を信頼度に応用した。RND には収益ターゲットが変化するという課題があったが、本研究では RND を信頼度推定に間接的に利用し RS2 と組み合わせることで、収益ターゲットを変えず成績を向上させた。

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

パスワード