14:00 〜 14:20
[2H3-J-2-03] 非定常環境における認知的満足化価値関数の適応性能
キーワード:多腕バンディット、満足化、非定常
エージェントが試行錯誤を行う現実の環境は,観測できない情報や様々な揺らぎから,一般的に非定常であると言える.非定常環境での有効な意思決定のためには,新しい環境への適応のために,過去の情報をうまく捨てる必要がある.結果として,定常環境より少ない情報である程度良い選択肢を選び意思決定していく必要がでてくる.そのような少ない情報からの意思決定のため,我々は人間の満足化と呼ばれる選択傾向を有した満足化価値関数を用いたRSアルゴリズムに着目した.我々はRSアルゴリズムを過去の情報を捨てながら選択するメタバンディットアルゴリズムや,忘却率付き更新と組み合わせ,定常・非定常環境下の両方における多腕バンディット問題で,既存アルゴリズムと比較し,その有用性を示した.