[3Xin4-63] 推薦システムにおけるモデルフリーオフライン強化学習手法に関する調査
キーワード:推薦システム、モデルフリー強化学習、オフライン強化学習 、深層学習
推薦システムにおいて,オフライン強化学習は,収集したログデータのみから新たな推薦方策を学習し,長期的なユーザ体験を最大化することが期待されている.しかし,新たに学習した推薦方策と収集したログデータの分布が異なる分布シフトと呼ばれる課題が存在する.本研究では,分布シフトに対処するために提案されているモデルフリーオフライン強化学習法を,教師あり正則化(SR),バッチ正則化(BR),不確実性正則化(UR)の3つに分類し,推薦システムに適用した場合の各手法を比較する.評価実験では、セッションベース推薦システム用のデータセットを用いて、クリックと購入の推薦精度を比較する.それぞれについて性能比較を行い、制約がデータセットの分布に強く近づくほど、ベースラインであるGRU4Recと比較して推薦精度が悪くなることを確認した.
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。