16:10 〜 16:30
[2I5-GS-2-02] 認知的満足化価値関数の関数近似
キーワード:強化学習、文脈付きバンディット、意思決定
人間にはある目的基準を超える収益が得られる手順を発見するとそれに満足し,探索を打ち切るといった満足化と呼ばれる意思決定傾向が存在する.この傾向を強化学習に応用したのが Risk-sensitive Satisficing (RS) である.深層強化学習は人間が行うようなレトロゲームのプレイや運動制御などへ強化学習の適用範囲を広げた.しかし,情報を自ら探索しなければならない点は変わらない一方で,ニューラルネットによる関数近似を用いることで効率的な探索に関する議論を困難にしている.そこで RS を強化学習に反映することで素早く合目的的な探索を実現することが可能になると考えられ,実際に RS はバンディット問題のようなトイタスクの強化学習課題において優れた成績を有している.本研究では RS を関数近似に拡張した Linear RS(LinRS) における目的基準の設定について検証を行うために,文脈付きバンディット問題での実験を行う.それにより,既存アルゴリズムに比べて確率的な環境で優れた成績を有することが分かった.また,基準値と近似誤差の関係から,目的水準に補正が必要であることが分かった.
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。