弱教示的強化学習における探索性の自律調整

佐鳥 玖仁朗

12:40 〜 13:00

[4G2-GS-7-03] 弱教示的強化学習における探索性の自律調整

〇佐鳥玖仁朗¹、神谷匠¹、高橋達二² (1. 東京電機大学大学院、2. 東京電機大学理工学部)

キーワード：強化学習、満足化、自律性

一般に強化学習のようなオンライン学習では広大な探索空間での最適化は困難だが，人間は目標を定めることで探索と知識利用のバランスをとり，満足する行動系列を効果的に学習できる．その満足化を価値関数と方策のレベルで実装したRisk-sensitive Satiscing (RS) は，評価を非満足（不正解）と満足（正解）に変換し弱い意味で教示的に学習することで，強化学習において優秀な成績を残している．加えて，多様な強化学習タスクへの汎化手法として大局的な目標と収益の差分による大局満足度から局所満足度へ変換する Global Reference Convertion (GRC) が考案された．しかし，その性能は新奇探索性とスケールのパラメータ ζ の調整に敏感に依存する．本論では，比率による満足度の変換と現状の正確な満足度の評価により設定が困難なパラメータ ζ を廃し，探索性の自律調整可能な GRCr (ratio) を提案する．またグリッドワールド拡張タスクを通して，局所解に陥りやすい環境での弱教示的学習による満足する行動系列の効率的な学習と，多様な環境モデルにおいて探索性の自律調整による汎用性を示す．

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

講演情報

[4G2-GS-7] エージェント: エージェントと機械学習

[4G2-GS-7-03] 弱教示的強化学習における探索性の自律調整

パスワード