[1Win4-13] The effect of goal setting for multi-armed bandit problem
Keywords:multi-armed bandit problem, goal setting theory, satisficing
不確実性下の意思決定において,利益の最大化を目指すためには,情報収集が重要である.しかし,未知の環境から情報を得るための探索と利益を得るための活用はトレードオフの関係にある.強化学習は,このような探索と活用のバランスを調整することで,エージェントが獲得する利益の最大化を目指す(Sutton & Barto, 2018).行動科学では,生物は認知・行動資源に限界があることから,ある目標の達成に応じて探索を収束させるという満足化の原理が示唆されている(Simon, 1957).また,組織心理学は,よりよい目標を設定することが高いパフォーマンスを動機付けることを示してきた(Locke & Latham, 2006).本研究は,目標達成の見込みによって探索と活用を使い分ける二重逆温度ソフトマックスを提案し,多腕バンディット問題における目標設定の効果を検証した.その結果,適切な目標とほどよい探索が有効であることを示した.
Please log in with your participant account.
» Participant Log In