10:30 〜 12:10
[3Rin2-05] 隠れ状態を持つ多腕バンディット問題における方策の検討
キーワード:バンディット問題、強化学習
バンディット問題は, 1つの状態に限定した中で, 選択肢の中から1つを選び報酬を獲得していくことで, 現在の報酬を最大化する問題である. 強化学習は複数の状態が存在する中で, 選択肢から様々な行動をすることで, 未来で獲得する報酬を最大化する問題である. 両者の差は状態の情報が既知の中で, 複数の状態を考慮していることである. 今回のシミュレーションでは現在の状態や状態遷移の情報が未知である設定で, 一定の時間は1つの状態を維持しその後他の状態に遷移するモデルを考える. このモデルについてバンディット問題の方策と強化学習の方策を累積報酬について比較する. その結果, 強化学習の方策の方がバンディット問題の方策よりも累積報酬が高くななった.