14:00 〜 14:20
[1B3-OS-41a-02] ロボット操作タスクにおけるマルチモーダルプロンプト解析
キーワード:人工知能、ロボット、マルチモーダル
本研究では, ロボット操作タスクにおけるマルチモーダルプロンプトの解析を行い, テキストと視覚入力の相互作用に注目した. VIMAベンチマークを用いて, モダリティ依存性や観測トークンの入力順序がタスク成功率に与える影響を評価した. その結果, 特定のモダリティや入力順序への過剰依存が明らかとなり, 堅牢なマルチモーダル学習を達成する上での重要な課題が示された. 本研究の知見は, ロボットタスクにおけるモデルの汎化性向上に貢献する.
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。