決定木と信頼上界を用いた文脈付きバンディットアルゴリズム手法の提案

大岩 将

15:00 〜 15:20

[4D3-GS-2-04] 決定木と信頼上界を用いた文脈付きバンディットアルゴリズム手法の提案

〇大岩将¹、阿部太一¹、木村恵悟¹、鈴木佐俊¹、後藤正幸¹ (1. 早稲田大学)

キーワード：文脈付きバンディットアルゴリズム、信頼上界、決定木、推薦システム、ブートストラップサンプリング

近年，eコマースを筆頭に様々な領域で，オンライン推薦システムである文脈付きバンディットアルゴリズムが活用されている．この手法はユーザ属性や過去の購買履歴などの「文脈情報」から，商品の購入有無などを表す「報酬」を推定することで，逐次的な推薦を行う．その際，様々な商品を推薦する「探索」と期待報酬の高い商品を推薦する「活用」をバランスよく行い，累積報酬の最大化を図る．文脈から報酬を正確に推定するためには状況に適したモデルを仮定することが肝要だが，しばしば文脈と報酬の間には非線形の関係が見受けられる．このような状況に適した手法として，決定木を用いて報酬を推定するTreeBootstrapが提案されている．しかし，TreeBootstrapでは学習データのブートストラップサンプリングを行うことで探索と活用のバランスを取っているため，活用において探索で得た情報を十分に使用できない可能性がある．そこで本研究では，学習データのブートストラップサンプリングではなく，期待報酬の信頼上界を用いて探索と活用のバランスを取るTreeUCBを提案する．人工データ，実データを用いた実験により提案手法の有効性を示す．

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

講演情報

[4D3-GS-2] 機械学習：基礎・理論

[4D3-GS-2-04] 決定木と信頼上界を用いた文脈付きバンディットアルゴリズム手法の提案

パスワード