非定常な文脈付きバンディット問題における目的志向探索

伊東 将吾

15:50 〜 16:10

[3R5-GS-2-02] 非定常な文脈付きバンディット問題における目的志向探索

〇伊東将吾¹、水野桜¹、坪谷朱音²、高橋達二¹、甲野佑¹ (1. 東京電機大学、2. 東京電機大学大学院)

キーワード：強化学習、文脈付きバンディット、非定常環境

広告配信やレコメンドシステムの選定アルゴリズムは，Web サービスには不可欠な存在となっている．人々の趣味嗜好は流動的であり，アルゴリズムにおいては非定常環境下での追従性が重要になってくる．そこで我々は最適化ではなく目的達成を重視する，人間の意思決定傾向に着目した．このような目的志向型の探索を行うエージェントは，環境の変化ではなく目的の達成度に応じた探索を行うため，環境変化に対して頑健で，柔軟かつ追従性の高い意思決定が期待できる．目的志向型の意思決定を取り入れたメタ方策としてRisk-sensitive Satisficing (RS) が考案されている．先行研究では非定常環境下での追従性に優れていた．しかし文脈付きバンディット問題における非定常環境下でも追従性が保たれているかは未検証であった．本研究では RS を近似関数に拡張した Regional Linear Risk-sensitive Satisficing (RegLinRS) にも忘却という概念を導入することにより，時間経過とともに変化する非定常な報酬環境下での文脈付きバンディット問題への追従性を検証し，その有用性を示す．

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

講演情報

[3R5-GS-2] 機械学習；目的志向探索

[3R5-GS-2-02] 非定常な文脈付きバンディット問題における目的志向探索

パスワード