JSAI2025

Presentation information

Organized Session

Organized Session » OS-16

[1P5-OS-16] OS-16

Tue. May 27, 2025 5:40 PM - 7:20 PM Room P (Room 801-2)

オーガナイザ:鷲尾 隆(関西大学),西山 直樹(住友重機械工業),吉岡 琢(Laboro.AI),小松崎 民樹(北海道大学),山崎 啓介(産業技術総合研究所),窪澤 駿平(日本電気)

5:40 PM - 6:00 PM

[1P5-OS-16-01] Investigation of Optimal Network Architectures for Domain Adaptation

〇Keita Hara1, Taku Yoshioka1 (1. Laboro.AI)

Keywords:Reinforcement Learning, Control Engineering, Sim2Real, Domain Randomization

強化学習で実環境の制御則(policy)を獲得する際、サンプルの取得が難しい状況がある。この問題の対策の一つとしてdomain adaptationがあり、具体的な方法としてシミュレーション環境による制御則の事前訓練と実環境から取得したサンプルによるファインチューニングがある。Domain adaptationは幅広く研究されているが、actorやcriticを構成するネットワークアーキテクチャについてはあまり注目されていない。そこで、本研究ではdomain adaptationのための最適なネットワークアーキテクチャについて検討する。特に、基盤モデルのファインチューニング手法として広く採用されているLoRAのように、少数のパラメータのみを学習することで事前学習の情報を有効活用できるかどうかに注目し、その有効性を実験的に検証する。

Authentication for paper PDF access
A password is required to view paper PDFs. If you are a registered participant, please log on the site from Participant Log In.
You could view the PDF with entering the PDF viewing password bellow.

Password