2:20 PM - 2:40 PM
[2S4-GS-2-03] Utilizing Reward Value of Trajectory for Attention Scores in Decision Transformer
Keywords:Machine Learning, Reinforcement Learning, Decision Transformer
Decision Transformer(DT)は、状態、行動、報酬の系列入力で表現される強化学習の問題解決モデルである。単語の系列を用いるTransformerと同様に、状態と行動、報酬値の系列から構成される軌跡データの構成要素間の関連度(Attention Score)に基づいて行動ベクトルを出力する。すなわち、DTはTransformerにおける単語を状態、行動、報酬の系列データに置き換えたモデルである一方、Attention Scoreはコサイン類似度を用いた自然言語処理の方法に準じて導出される。そのため、エージェントの報酬スケールや行動の頻度などは直接反映されていないという問題がある。
本研究では、Attention Scoreの導出において、エージェントの行動による報酬値を用いる方法を提案する。DTの学習に用いる軌跡内の報酬値を用いて導出した値をAttention Scoreに乗じることによって、エージェントの報酬スケールを反映する。提案手法の有効性を、計算機実験による既存手法との比較によって検証した。
本研究では、Attention Scoreの導出において、エージェントの行動による報酬値を用いる方法を提案する。DTの学習に用いる軌跡内の報酬値を用いて導出した値をAttention Scoreに乗じることによって、エージェントの報酬スケールを反映する。提案手法の有効性を、計算機実験による既存手法との比較によって検証した。
Authentication for paper PDF access
A password is required to view paper PDFs. If you are a registered participant, please log on the site from Participant Log In.
You could view the PDF with entering the PDF viewing password bellow.