13:40 〜 14:00
[2C4-GS-2-02] 理想基準値を用いた確率的満足化方策
キーワード:強化学習、機械学習、バンディット問題、満足化
試行錯誤的な目的達成の根幹技術である強化学習におけるエントロピー最大化強化学習という手法によってエントロピー正則化と Softmax な価値推定の関係が学習の安定・効率化に寄与することが示されている.一方人間には目標水準を定め,それを満たす行動を速やかに探索する満足化という性質があり,これを応用した探索傾向 Risk-sensitive Satisficing(RS) が考案されている.RS は希求水準を適切に設定した場合において優れた成績を示しており,高い成績を得るための動的な基準値推定手法も複数考案されている.RS は決定論的な探索手法だが,巡回的な探索配分比率が内包されており,それを確率分布として推定した Stochastic Risk-sensitive Satisficing (SRS) が考案された.SRS は Softmax と同じく価値の順序関係に基づいた探索を行うが,より探索過程で発生する不確実性や非定常性による価値の修正への頑健性が高いと思われる.本研究では SRS の丸め誤差への着尺性を考慮し,非定常なバンディット問題における優れた成績と性質を示した.
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。