2023年度 人工知能学会全国大会(第37回)

講演情報

一般セッション

一般セッション » GS-2 機械学習

[1B4-GS-2] 機械学習:経路計画・制御・とセグメンテーション

2023年6月6日(火) 15:00 〜 16:40 B会場 (シビックホール B)

座長:井田 安俊(NTT) [現地]

16:20 〜 16:40

[1B4-GS-2-05] 深層強化学習における類似経験による行動プランニング

〇越川 駿平1、久米 淳1、樋口 滉規1、高橋 達二2、太田 宏之3 (1. 東京電機大学大学院、2. 東京電機大学、3. 防衛医科大学校)

キーワード:機械学習、強化学習、経験再生、行動プランニング、深層学習

海馬は過去の経験をリプレイする脳領域であることが知られている. 深層強化学習の文脈において, 従来, このリプレイのアイデアは主に人工ニューラルネットワークの学習に用いるデータのサンプル効率の向上ならびにサンプル間の独立性を保つために用いられてきた. しかし近年の神経科学研究の進歩により, 海馬によるリプレイは行動の直前に発生すること, また, 過去の経験の中から想起された現在位置を起点とした移動経路に基づいて最善の移動経路を選択するプランニングに関与していることがわかってきた. 本研究ではその知見に着想を得ることで、Deep Q-Network(DQN)の枠組みにおいて, 過去に観測した情報を保持するリプレイバッファの中から現状態と類似した状態を起点とする軌跡を検索し, そのN-step rewardを現状態における行動価値に上乗せすることで行動選択に反映する仕組みを提案した. CliffWalkingを用いたシミュレーション実験の結果、提案手法を用いることで, 通常のDQNよりも早期の収益最大化が促進されること, また, より少ないステップ数で終端状態に到達可能となることが確認された.

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

パスワード