09:00 〜 09:20
[3E1-GS-2-01] Min-Max Regret型強化学習におけるRegret近似の改善
キーワード:強化学習、汎化
強化学習において評価時の環境パラメータが未知の場合に,環境パラメータについての最悪regretの最小化により,環境の不確実性に対して頑健なエージェントを学習する手法が提案されている.学習時に真のregretが求まることは稀であるため,各環境パラメータに対する最適方策の近似を通してregretを近似する方法がしばしば用いられる.しかし,近似された最適方策を用いてregretを近似する場合,この近似精度が不十分であることに起因して最悪regretを最小化する方策の学習に失敗することがある.本研究では,各環境パラメータについての最適方策の学習精度を向上させることで,より正確なregretの近似を図るアプローチを提案する.数値実験により,提案アプローチを用いることで,regretの近似精度が向上すること,また,最悪regretの最小化の精度が上がることが確認できた.
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。