[3Xin2-88] ニューラルバンディットにおける目的志向探索
キーワード:強化学習、文脈付きバンディット、ニューラルバンディット
広告配信やレコメンドの選定アルゴリズムはもはや Web サービスには不可欠である.選定アルゴリズムとしては特に,既存タスクのユーザーの選好を反映する文脈付きバンディットアルゴリズムはリアルタイム性やコールドスタートに強いなどの利点があり,また ChatGPT の RLHF によるチューニングのように強化学習を組み合わせることで人間の選好への更なる適応が期待できる.しかし産業応用では探索しすぎる遠回りな環境適応より,特定の水準への速やかな達成が重視される.そこで我々は目的達成を重視する人間の意思決定傾向に着目した.この目的志向傾向を参考にしたメタ方策に Regional Linear Risk-sensitive Satisficing (RegLinRS) がある.先行研究では報酬関数が線形の環境に対して高い成績を示しており,非線形の報酬環境での性能向上も期待できる.本研究では RegLinRS を複雑な関数近似へ拡張した Neural Regional Risk-sensitive Satisficing (NeuralRegRS) を考案し,報酬関数が人工・実環境のデータにおいて検証した.
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。