2019年度 人工知能学会全国大会(第33回)

講演情報

一般セッション

一般セッション » [GS] J-2 機械学習

[2H3-J-2] 機械学習: 選択的前処理

2019年6月5日(水) 13:20 〜 15:00 H会場 (303+304 小会議室)

座長:清田 陽司(株式会社LIFULL) 評者:小山 聡(北海道大学)

14:00 〜 14:20

[2H3-J-2-03] 非定常環境における認知的満足化価値関数の適応性能

〇花安 勇人1、齋藤 建志2、吉井 佑輝1、甲野 佑1、高橋 達二1 (1. 東京電機大学理工学部、2. 東京電機大学大学院)

キーワード:多腕バンディット、満足化、非定常

エージェントが試行錯誤を行う現実の環境は,観測できない情報や様々な揺らぎから,一般的に非定常であると言える.非定常環境での有効な意思決定のためには,新しい環境への適応のために,過去の情報をうまく捨てる必要がある.結果として,定常環境より少ない情報である程度良い選択肢を選び意思決定していく必要がでてくる.そのような少ない情報からの意思決定のため,我々は人間の満足化と呼ばれる選択傾向を有した満足化価値関数を用いたRSアルゴリズムに着目した.我々はRSアルゴリズムを過去の情報を捨てながら選択するメタバンディットアルゴリズムや,忘却率付き更新と組み合わせ,定常・非定常環境下の両方における多腕バンディット問題で,既存アルゴリズムと比較し,その有用性を示した.