[3Win5-24] Multi-Armed Bandit Algorithms with Temporal Budget and Action Budget Constraints
Keywords:Multi-Armed Bandit Problem, Recommender System, Thompson Sampling
ECサイトにおける商品推薦システムでは多腕バンディットアルゴリズムが広く活用されている。 しかし、古典的な手法は選択肢が常に利用可能であることを前提とするため、 販売期間や在庫に制約のある環境への適用には課題が残る。 そこで本研究では、販売期間と在庫の制約を想定してそれぞれ時間予算制約と行動予算制約として 定式化し、商品推薦のための新たなバンディットアルゴリズムを開発した。 数値シミュレーションの結果、単純な購入確率最大化を目指すトンプソンサンプリング等の 古典的手法に対し、提案手法は制約下での総収益最大化において優れた性能を示した。
Please log in with your participant account.
» Participant Log In