16:40 〜 17:00
[2C5-GS-2-05] 目的関数値の悪化を抑制するベイズ最適化に基づくオンライン学習に関する一考察
キーワード:オンライン学習、ガウス過程回帰、バンディット問題、推薦、探索
これまでの推薦システムでは,過去のログデータからユーザが好むアイテムを推定し,リスト化して提示するものが多く,その性能は推定された推薦リストが顧客の嗜好に合致しているかを測る損失によって評価される.しかし,推薦は一時点のみで単発的に実施されるものではなく,各ユーザに対して継続的に実施されるものであるため,推薦系列全体に対する累積損失によって性能を議論されるべきである. このような逐次的な推薦と評価を取り扱うことができる枠組みとしてオンライン学習があるが,その目的は学習の効率化にあり,推薦系列の累積損失を考慮しない手法がほとんどである.そこで本研究では,目的関数の悪化を抑制しながら探索を行う手法であるSafe Exploration for Optimizationをベースとし,推薦系列の累積損失の抑制と広く各ユーザの嗜好に合致したアイテムを探索することを両立した手法を提案する. 探索されたアイテムに対して逐次的にユーザの評価が得られることを想定した人工データを生成し実験を行い,提案手法の有効性を示す.
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。