強化学習における結果模倣

北出 伶奈

14:10 〜 14:30

[2Q4-OS-27b-03] 強化学習における結果模倣

〇北出伶奈¹、和田拓真²、甲野佑¹、高橋達二¹ (1. 東京電機大学、2. 東京電機大学大学院)

キーワード：強化学習、バンディット問題、社会的学習

人間はしばしば，他者の競技記録などの結果情報のみを参照し，独立した試行錯誤により，同様またはより優れた結果を達成できる．これは競い合い・結果模倣（エミュレーション）と呼ばれる社会学習の形式である．結果模倣では, 時には数ビットの情報の共有のみにより，組織や社会全体のパフォーマンスの向上が見られた．先行研究では，他者の結果情報をそのまま鵜呑みにするのではなく，少し低く見積ることで，より効果的に結果を改善できることが示されている．これは単一エージェントでは「不確実な環境においては楽観的に」探索するという原則があるのに対し，マルチエージェントでは「個体は楽観的に，集団は悲観的」な探索が効率的になる，という原理である．先行研究ではマルチエージェント環境での社会性を模したバンディット問題において，Lower Confidence Bound (LCB) のような悲観的な結果水準の見積り手法が有効であった．しかしより現実的な非定常な環境を想定すると LCB では対応しきれない．ここから本研究では非定常環境にも対応できるマルチエージェント学習における新たな悲観的解釈とそのアルゴリズムを検討した．

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

講演情報

[2Q4-OS-27b] 強化学習の新展開

[2Q4-OS-27b-03] 強化学習における結果模倣

パスワード