社会的強化学習における大局基準値共有とGRCの効果

秋庭 拓実

14:40 〜 15:00

[1G2-GS-2a-05] 社会的強化学習における大局基準値共有とGRCの効果

〇秋庭拓実¹、高橋達二²、浦上大輔¹ (1. 日本大学、2. 東京電機大学)

キーワード：強化学習、満足化、大局基準値共有

社会的強化学習とは他者との情報共有など、人間の社会性を強化学習の枠組みに取り入れることによって効果的な学習の実現を目的とするものである。素朴な方法としては、複数の強化学習エージェントが並行して探索と学習を行う場合に行動価値を共有するということが考えられる。しかし、行動価値の共有は状態行動対でおこなう必要があり、計算量が大きくなることや探索傾向の偏りから準最適解に陥るという懸念がある。これに対して我々はエピソード毎の獲得報酬の最大値を基準値として共有することと（大局基準値共有）、その基準値を各状態における基準値に変換する方法（GRC: Global Reference Conversion）に基づく強化学習法を提案している。本研究では餌場探索タスクにおいて大局基準値共有とGRCを採用した場合に、各状態の基準値を全て共有する場合と比較して、エージェント数と報酬設定という二つの重要な要因についてより広範囲で最適行動を獲得するという結果が得られた。この結果は「より少ない情報共有がより柔軟な探索と学習をもたらす」ということを意味していると考えられ、その解析と考察についても上記の結果と合わせて報告する。

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

講演情報

[1G2-GS-2a] 機械学習：強化学習

[1G2-GS-2a-05] 社会的強化学習における大局基準値共有とGRCの効果

パスワード