[1Win4-13] 多腕バンディット問題における目標設定の効果
キーワード:多腕バンディット問題、目標設定理論、満足化
不確実性下の意思決定において,利益の最大化を目指すためには,情報収集が重要である.しかし,未知の環境から情報を得るための探索と利益を得るための活用はトレードオフの関係にある.強化学習は,このような探索と活用のバランスを調整することで,エージェントが獲得する利益の最大化を目指す(Sutton & Barto, 2018).行動科学では,生物は認知・行動資源に限界があることから,ある目標の達成に応じて探索を収束させるという満足化の原理が示唆されている(Simon, 1957).また,組織心理学は,よりよい目標を設定することが高いパフォーマンスを動機付けることを示してきた(Locke & Latham, 2006).本研究は,目標達成の見込みによって探索と活用を使い分ける二重逆温度ソフトマックスを提案し,多腕バンディット問題における目標設定の効果を検証した.その結果,適切な目標とほどよい探索が有効であることを示した.
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。