16:30 〜 16:50
[2I5-GS-2-03] 実世界データにおける近似誤差を踏まえた認知的満足化探索
キーワード:強化学習、機械学習、文脈付きバンディット問題、満足化
複雑な入力情報から取るべき行動を推論する深層強化学習は,強力な関数近似器での学習(Deep Learning)が発展の核となった.強化学習には教師あり学習とは異なり,自分でデータ収集しなければならない探索の概念を持ち,単純な強化学習の一種であるバンディット問題では最適な探索アルゴリズムが明らかになっている.しかしながら関数近似を用いる文脈付きバンディット問題では最適な探索が保証されなくなる.そこで本研究では従来とは異なる探索アルゴリズムの検証を行った.人間は報酬の目標水準を持ち,それを満たす行動を速やかに探索する性質(満足化)が知られている.この満足化を応用した文脈付きバンディットアルゴリズムに応用した linear Risk-sensitive Satisficing (LinRS) は人工的な分布を用いた課題では既存アルゴリズムと比較しても良い成績が得られている.本研究では実世界から実測データでの文脈付きバンディット問題での検証を行った.人工データより実世界データの成績は悪化すると言われており,その対処法として LinRS における適切な探索のための目標水準の調整について議論する.
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。