軌跡データの報酬値を反映したAttention ScoreによるDecision Transformer

大野 優太

14:20 〜 14:40

[2S4-GS-2-03] 軌跡データの報酬値を反映したAttention ScoreによるDecision Transformer

〇大野優太¹、荒井幸代¹ (1. 千葉大学大学院)

キーワード：機械学習、強化学習、Decision Transformer

Decision Transformer(DT)は、状態、行動、報酬の系列入力で表現される強化学習の問題解決モデルである。単語の系列を用いるTransformerと同様に、状態と行動、報酬値の系列から構成される軌跡データの構成要素間の関連度(Attention Score)に基づいて行動ベクトルを出力する。すなわち、DTはTransformerにおける単語を状態、行動、報酬の系列データに置き換えたモデルである一方、Attention Scoreはコサイン類似度を用いた自然言語処理の方法に準じて導出される。そのため、エージェントの報酬スケールや行動の頻度などは直接反映されていないという問題がある。
本研究では、Attention Scoreの導出において、エージェントの行動による報酬値を用いる方法を提案する。DTの学習に用いる軌跡内の報酬値を用いて導出した値をAttention Scoreに乗じることによって、エージェントの報酬スケールを反映する。提案手法の有効性を、計算機実験による既存手法との比較によって検証した。

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

講演情報

[2S4-GS-2] 機械学習：

[2S4-GS-2-03] 軌跡データの報酬値を反映したAttention ScoreによるDecision Transformer

パスワード