イベント駆動型強化学習によるオンライン制御システムの最適化

中条 隼人

18:10 〜 18:30

[2E6-GS-8-03] イベント駆動型強化学習によるオンライン制御システムの最適化

〇中条隼人¹、荒井幸代¹ (1. 千葉大学)

キーワード：イベント駆動型強化学習、セミマルコフ決定過程、空調制御

方策の学習と方策による制御を同時に行うオンライン強化学習を用いた制御システムの最適化の研究が進んでいる。その中でも，制御操作と時間間隔の両者を最適化するアプローチとしてイベント駆動型強化学習に着目する。イベント駆動型強化学習は，一定の時間間隔で制御操作する時間駆動型強化学習と比較して，不必要な制御操作による不安定化や制御コストの増加という問題を解決することができる。しかし，イベント駆動型強化学習では初期設定の影響により学習初期の性能が低下しやすく，これはオンライン強化学習を用いた制御において不安定となる要因である。よって，本研究ではイベント駆動型強化学習の学習初期の性能を向上することを目的に，時間駆動とイベント駆動の複合型強化学習を提案する。また，ベンチマークとしてヒーターの制御を想定した計算機実験により，時間駆動型強化学習とイベント駆動型強化学習を上回る性能を獲得することを確認し，オンライン強化学習としての提案手法の有効性を示した。

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

講演情報

[2E6-GS-8] ロボットと実世界：

[2E6-GS-8-03] イベント駆動型強化学習によるオンライン制御システムの最適化

パスワード