[4Yin2-30] 複数の満足化エージェント間のわずかな情報共有による分業と最適性
キーワード:バンディット問題、満足化、社会的学習
人間の集団が意思決定する際は,分業により未知の環境であっても効率良い探索が可能である.環境の不確実性に対して個人ではUCB方策のように楽観的であることが合理的である.他方,集団では他者の情報を鵜呑みにせず,過小評価するといった悲観性を持って分業した方が良いのではないだろうか.人間の意思決定傾向の満足化を取り入れたアルゴリズムであるRS(Risk-sensitive Satisficing)は希求水準を満たすような行動を素早く探索できるアルゴリズムである.バンディット問題において,複数のRSエージェント間の基準値の共有によって結果模倣のモデル化に成功している.結果模倣とは他者の結果のみを模倣すること,すなわちemulationのことである.一方,確率的揺らぎが存在する環境において,従来の基準値の共有手法である最高記録の共有ではRSエージェントの増加に伴い性能が低下する問題が判明した.本研究では,確率的揺らぎが存在する環境であっても他者の記録を悲観的に見積もることにより,性能が向上する基準値の共有手法を提案する.
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。