潜在意図の後推定による多様な方策の生成モデル

甲野 佑

16:20 〜 16:40

[2L5-GS-1-03] 潜在意図の後推定による多様な方策の生成モデル

〇甲野佑^1,2 (1. 株式会社ディー・エヌ・エー、2. 東京電機大学)

キーワード：生成モデル、強化学習、機械学習

近年の大規模生成モデルは言語や音声、画像や動画などの認識・生成・相互変換を可能とし、汎用的な人工知能への歩みは飛躍的に進んだかに見える。しかし高度な知能エージェントは行動を出力とした環境適応が目的であり、肝心の行動概念、方策の生成に関しては、複雑なプロンプト設計などを前提とした限られた成功例があるのみで、理論的には確立していない。また他モーダル情報との相互連携についても潜在空間を介した自然な方法はまだない。行動を扱う方法としては強化学習が主流の一つである。一方で強化学習は一つの最適方策を求めて膨大な学習をするため、データに対する費用対効果が悪く、必然的に形成された方策は多様性を持たない。しかし報酬獲得のための主体的探索能力は未だ高いため、本研究では生成モデルの多様性と強化学習の探索能力を併せ持つ結合モデルを考案する。具体的には人間が持つとされる自身の行動に後付けで意味を付加する性質を参考にする。方策の引数に行動意図に当たる潜在変数を導入、軌跡を特殊な生成モデルで埋め込むことで実現した。飽くまでトイタスクではあるが、同一軌跡からの対照学習や定常分布の推定などと組み合わせ学習を成立させた。

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

講演情報

[2L5-GS-1] 基礎・理論：

[2L5-GS-1-03] 潜在意図の後推定による多様な方策の生成モデル

パスワード