大局基準値共有による社会的強化学習

其田 憲明

14:50 〜 15:10

[3K3-J-2-04] 大局基準値共有による社会的強化学習

〇其田憲明¹、神谷匠²、高橋達二¹ (1. 東京電機大学、2. 東京電機大学大学院)

キーワード：強化学習、社会学習、満足化

人間は個人での試行錯誤的な学習だけではなく，他者の成功情報を受け取ることで学習をより促進させている．ここには他者の行動の模倣や結果の再現といった社会的な戦略が存在する．強化学習における他エージェントとの情報共有法としてはしばしば行動価値の共有が行われているが，状態や状態行動対ごとの情報共有が必要であり，現実には難しいことが多々ある．少なくとも人間や動物の社会的学習のモデルとしては現実性に欠ける．我々は人間の満足化原理を強化学習に反映した，Risk-sensitive Satisficingと大局基準変換法を用いた大局的な基準値の共有によって，より少量の情報共有による効率的な社会的学習が可能であることを示す．

講演情報

[3K3-J-2] 機械学習: 基礎モデルの分析と検証

[3K3-J-2-04] 大局基準値共有による社会的強化学習