16:20 〜 16:40
[1B4-GS-2-05] 深層強化学習における類似経験による行動プランニング
キーワード:機械学習、強化学習、経験再生、行動プランニング、深層学習
海馬は過去の経験をリプレイする脳領域であることが知られている. 深層強化学習の文脈において, 従来, このリプレイのアイデアは主に人工ニューラルネットワークの学習に用いるデータのサンプル効率の向上ならびにサンプル間の独立性を保つために用いられてきた. しかし近年の神経科学研究の進歩により, 海馬によるリプレイは行動の直前に発生すること, また, 過去の経験の中から想起された現在位置を起点とした移動経路に基づいて最善の移動経路を選択するプランニングに関与していることがわかってきた. 本研究ではその知見に着想を得ることで、Deep Q-Network(DQN)の枠組みにおいて, 過去に観測した情報を保持するリプレイバッファの中から現状態と類似した状態を起点とする軌跡を検索し, そのN-step rewardを現状態における行動価値に上乗せすることで行動選択に反映する仕組みを提案した. CliffWalkingを用いたシミュレーション実験の結果、提案手法を用いることで, 通常のDQNよりも早期の収益最大化が促進されること, また, より少ないステップ数で終端状態に到達可能となることが確認された.
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。