ロボット操作タスクにおけるマルチモーダルプロンプト解析

髙橋 大輝

14:00 〜 14:20

[1B3-OS-41a-02] ロボット操作タスクにおけるマルチモーダルプロンプト解析

〇髙橋大輝¹、鈴木雅大²、松尾豊² (1. 青山学院大学、2. 東京大学大学院工学系研究科)

キーワード：人工知能、ロボット、マルチモーダル

本研究では, ロボット操作タスクにおけるマルチモーダルプロンプトの解析を行い, テキストと視覚入力の相互作用に注目した. VIMAベンチマークを用いて, モダリティ依存性や観測トークンの入力順序がタスク成功率に与える影響を評価した. その結果, 特定のモダリティや入力順序への過剰依存が明らかとなり, 堅牢なマルチモーダル学習を達成する上での重要な課題が示された. 本研究の知見は, ロボットタスクにおけるモデルの汎化性向上に貢献する.

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

講演情報

[1B3-OS-41a] 世界モデルと知能

[1B3-OS-41a-02] ロボット操作タスクにおけるマルチモーダルプロンプト解析

パスワード