16:00 〜 16:20
[2S5-GS-2-02] 大規模な行動空間における報酬全体を考慮したオフポリシー評価法の提案
キーワード:反実仮想機械学習、オフポリシー評価、推薦システム、OffCEM推定量
反実仮想機械学習の一分野であるオフポリシー評価では,ログデータを活用して意思決定方策の真の性能の正確な推定を目指す.従来の意思決定方策の性能を評価する推定量は,意思決定方策により直接発生する報酬のみを考慮する定式化に基づいている.しかし実際の問題ではECサイトの推薦アルゴリズムのように,ユーザが推薦リスト以外の商品に対してアクション(購買行動)を起こし報酬が生じるケースも多く存在する.このような状況に対応するために,推薦リスト内の商品のみの評価に留まらず,適切な性能評価が可能な推定量の定式化が求められる.先行研究の手法では,行動空間が大規模になるにつれて推定精度が低下し,正確な評価が困難となるが,ECサイトでは数千から数百万に及ぶ行動空間が存在するため,大規模な場合においても安定した推定手法の開発が必要である.そこで本研究では,既存のOffCEM推定量を拡張し,推定精度悪化の問題を軽減することで大規模行動空間下でも高い推定精度を実現する新たな推定手法を提案する.理論解析および実験結果により,提案手法が先行研究の推定量と比較して,大規模な行動空間において精度向上を達成していることを示す.
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。