14:20 〜 14:40
[1G2-GS-2a-04] 満足化方策における非満足均衡を用いた確率的方策の検証
キーワード:強化学習、機械学習、バンディット問題、満足化
近年の研究では,強化学習に際して,方策と収益推定値(Q値)の関係を考慮することで学習が効率的になることが明らかになっている.その基本的な考え方は,収益が高い行動は多く選ばれ,そうでない行動は探索されにくいという制約の下で学習する,というものである.一方,人間には報酬の目標水準を定めそれを満たす行動を速やかに探索するという性質(満足化)があり,この満足化を応用した探索のための価値関数Risk-sensitive Satisficing(RS)が知られている.RSは一定の基準値ℵ以上の価値を持つ選択肢を速やかに見つけ出すアルゴリズムであり,ℵの値を適切に設定した場合において優れた成績を示している.RSも探索実績と収益推定値から意思決定を行うものであるが,決定論的であるため方策=確率分布として扱われていない.そこで本研究では,エントロピー最大化強化学習におけるsoftmaxな方策関数との対応を調べるため,確率的方策としてRSを拡張したStochastic RS(SRS)を考案した.定常環境・非定常環境におけるRSとSRSの観測実験を通し,その有用性を示す.
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。