2022年度 人工知能学会全国大会(第36回)

講演情報

オーガナイズドセッション

オーガナイズドセッション » OS-16 知識・学習の転移可能性~ヒトとAI~

[2F6-OS-16b] 知識・学習の転移可能性~ヒトとAI~(2/2)

2022年6月15日(水) 17:20 〜 18:20 F会場 (Room F)

オーガナイザ:鳥居 拓馬(北陸先端科学技術大学院大学)[現地]、日高 昇平(北陸先端科学技術大学院大学)

17:40 〜 18:00

[2F6-OS-16b-02] マルチエージェント強化学習の報酬設計による知識の蒸留と転移に関する一考察

〇上野 史1 (1. 岡山大学)

[[オンライン]]

キーワード:マルチエージェントシステム、強化学習、報酬設計、知識転移

本研究では,マルチエージェント強化学習において,あえて限られた情報で協調行動を学習することで,学習する知識を単純でより効果的なものに蒸留し,その知識の転移と結合による未知環境への展開を目指している.本稿では,その知識の蒸留の手法として,エージェント間の暗黙的協調行動学習法を提案する.具体的には,報酬関数が主体となるエージェント自身の行動のみで変化する項,他エージェントのみの行動により変化する項,そしてエージェント間の相互作用により変化する項の三つに分割可能であるという仮定を置き,獲得報酬から他の項を想定した自身の獲得報酬最大化および安定的な学習を同時に実現させる.特にマルチエージェント強化学習では,獲得報酬に含まれる他エージェントの振舞いの影響を推定し,互いの獲得報酬を最大化させることが重要であるため,提案手法では獲得報酬に含まれる他エージェントの振る舞いの影響を暗黙的に推定する.実験では,従来手法よりも利用する情報を少なく同等以上の性能を発揮し,獲得した知識の有用性の高さを示した.また,本稿では提案手法による結果から知識転移に関する考察と展望を述べる.

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

パスワード