[4Xin2-68] 多目的閾値バンディット問題のPosterior Trackingアルゴリズム
キーワード:多腕バンディット、多目的最適化、純粋探索問題
多目的閾値バンディット問題は,与えられたK個の腕集合の中から、各時刻に1腕選び多値の報酬を得ることを繰り返し、全ての優良腕を同定することを目的としている.ここで,優良腕とは全ての評価指標において、全ての次元の期待報酬が共に与えられた閾値以上である腕のことを指す.固定信頼度の設定において,この問題において漸近的下界を達成する最適な各腕を引く割合を示し,停止条件に使われる一般化尤度比統計量の式を示す.それらと事後分布サンプリングに基づくアルゴリズムP-Trackingをこの問題に適用する.また,P-Trackingアルゴリズムの有効性について人工データを用いて検証する.多次元報酬の閾値バンディット問題において事後分布サンプリングではなく,強制探索により期待報酬推定の補正を行うC-TrackingとD-Trackingに加え,一次元報酬の閾値バンディット問題において有効なHDoCの単純な二次元拡張版との実験による比較では,P-Trackingが平均的により少ない報酬サンプルから閾値以上の腕の集合の同定を行うことが確認できた.
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。