[3Win5-81] RLHFを適用したプラント操作自動提示モジュールの開発
キーワード:強化学習、人間のフィードバック、サロゲートモデル
次世代原子力プラントを調整電源として活用するには、需要に応じた発電量・蓄熱量を柔軟かつ迅速に制御する必要がある。そこで、強化学習を活用し、プラントの状態に応じた適切な操作を素早く提示するプラント操作自動提示モジュールを開発している。これまでに、基盤となるプラント状態を再現するサロゲートモデルや、異常状態からの復帰操作を提示するCMPMを開発した。しかし、操作可能範囲の上下限を提示するなど、実運用では難しい操作を提示しがちであった。そこで本研究では、報酬に人間のフィードバックを組み込むRLHFを適用し、より現実的かつ安全性の高い操作を提示できるモジュールの開発を行った。
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。