Min-Max Regret型強化学習におけるRegret近似の改善

齊藤 啓太

09:00 〜 09:20

[3E1-GS-2-01] Min-Max Regret型強化学習におけるRegret近似の改善

〇齊藤啓太^1,2、田邊拓実^1,2、秋本洋平^1,2 (1. 筑波大学、2. 理研AIP)

キーワード：強化学習、汎化

強化学習において評価時の環境パラメータが未知の場合に，環境パラメータについての最悪regretの最小化により，環境の不確実性に対して頑健なエージェントを学習する手法が提案されている．学習時に真のregretが求まることは稀であるため，各環境パラメータに対する最適方策の近似を通してregretを近似する方法がしばしば用いられる．しかし，近似された最適方策を用いてregretを近似する場合，この近似精度が不十分であることに起因して最悪regretを最小化する方策の学習に失敗することがある．本研究では，各環境パラメータについての最適方策の学習精度を向上させることで，より正確なregretの近似を図るアプローチを提案する．数値実験により，提案アプローチを用いることで，regretの近似精度が向上すること，また，最悪regretの最小化の精度が上がることが確認できた．

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

講演情報

[3E1-GS-2] 機械学習：一般

[3E1-GS-2-01] Min-Max Regret型強化学習におけるRegret近似の改善

パスワード