2024年度 人工知能学会全国大会(第38回)

講演情報

オーガナイズドセッション

オーガナイズドセッション » OS-16 世界モデルと知能

[4O3-OS-16e] 世界モデルと知能

2024年5月31日(金) 14:00 〜 15:20 O会場 (音楽工房ホール)

オーガナイザ:鈴木 雅大(東京大学)、岩澤 有祐(東京大学)、河野 慎(東京大学)、熊谷 亘(東京大学)、松嶋 達也(東京大学)、森 友亮(株式会社スクウェア・エニックス)、松尾 豊(東京大学)

14:20 〜 14:40

[4O3-OS-16e-02] Diffusion Policyによる視覚言語条件付きロボット制御

〇黄瀬 輝1、小栗 滉貴1、加賀屋 智之1、奥村 亮2、谷口 忠大3,2 (1. パナソニック コネクト株式会社、2. パナソニック ホールディングス株式会社、3. 立命館大学)

[[オンライン]]

キーワード:ロボティクス、拡散モデル

人間の言語を理解し,それに基づいて自律的に行動を決定できるロボットの実現はロボティクスと機械学習の分野における重要な研究課題である.ロボットが人間の抽象的な指示に含まれる意図を的確に捉え,適切な制御を実行する事ができれば,人間への支援やタスク実行の効率が大幅に向上することが期待される.
本論文では,人間の言語指示やゴール画像に基づいて自律的に行動を決定するロボット制御の学習手法,Vision-Language-conditioned Diffusion Policy (VLDP)を提案する.従来の言語に基づくロボット制御手法では,人間の言語が持つ本質的な曖昧性や多義性を充分にモデル化することができなかった.VLDPは,この問題に対処するため,視覚言語モデルを通じて人間の言語指示やゴール画像からセマンティクスを抽出し,Diffusion Policyに条件付けすることで,言語の曖昧性を含む指示に対してもロボットが複数の有効な行動を生成する能力を獲得する.
実験では,提案手法の言語指示に基づく行動生成の成功率,未知の言語指示への適応能力,および行動の多峰性を評価する.

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

パスワード