17:40 〜 18:00
[1P5-OS-16-01] Domain adaptationのための最適なネットワークアーキテクチャの検討
キーワード:強化学習、制御工学、Sim2Real、Domain Randomaization
強化学習で実環境の制御則(policy)を獲得する際、サンプルの取得が難しい状況がある。この問題の対策の一つとしてdomain adaptationがあり、具体的な方法としてシミュレーション環境による制御則の事前訓練と実環境から取得したサンプルによるファインチューニングがある。Domain adaptationは幅広く研究されているが、actorやcriticを構成するネットワークアーキテクチャについてはあまり注目されていない。そこで、本研究ではdomain adaptationのための最適なネットワークアーキテクチャについて検討する。特に、基盤モデルのファインチューニング手法として広く採用されているLoRAのように、少数のパラメータのみを学習することで事前学習の情報を有効活用できるかどうかに注目し、その有効性を実験的に検証する。
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。