4:40 PM - 5:00 PM
[1S4-GS-2-04] Risk-Averse Multi-Objective Bandit under Fixed-Confidence
Keywords:Multi-armed bandit, Multi-objective optimization
確率的多腕バンディット問題における最適腕識別は,平均報酬が最大となる腕(アーム)の同定を目的とする.しかし,報酬にばらつきがある場合,その腕を1回引いたときに期待値を下回る報酬を得るリスクが生じる.本研究では,より高い期待報酬とより低いリスクをもつ腕のパレート解集合を効率的に同定する多目的最適化型多腕バンディット問題の定式化を行う.固定信頼度設定下でアーム間の信頼区間の重なり度合いをアーム選択方策に用い,期待報酬とリスクのパレート解集合を効率的に同定する手法を開発した.従来法との停止時間比較より,その有効性を検討し,提案手法がより少ないサンプルでパレート解集合のアームを同定できることを確認した。
Authentication for paper PDF access
A password is required to view paper PDFs. If you are a registered participant, please log on the site from Participant Log In.
You could view the PDF with entering the PDF viewing password bellow.