固定信頼度設定下におけるリスク回避型多目的バンディット

野永 竣太

16:40 〜 17:00

[1S4-GS-2-04] 固定信頼度設定下におけるリスク回避型多目的バンディット

〇野永竣太¹、田畑公次¹、水野雄太¹、小松崎民樹¹ (1. 北海道大学)

キーワード：多腕バンディット、多目的最適化

確率的多腕バンディット問題における最適腕識別は，平均報酬が最大となる腕(アーム)の同定を目的とする．しかし，報酬にばらつきがある場合，その腕を1回引いたときに期待値を下回る報酬を得るリスクが生じる．本研究では，より高い期待報酬とより低いリスクをもつ腕のパレート解集合を効率的に同定する多目的最適化型多腕バンディット問題の定式化を行う．固定信頼度設定下でアーム間の信頼区間の重なり度合いをアーム選択方策に用い，期待報酬とリスクのパレート解集合を効率的に同定する手法を開発した．従来法との停止時間比較より，その有効性を検討し，提案手法がより少ないサンプルでパレート解集合のアームを同定できることを確認した。

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

講演情報

[1S4-GS-2] 機械学習：

[1S4-GS-2-04] 固定信頼度設定下におけるリスク回避型多目的バンディット

パスワード