マルチモーダルLLMおよび視覚言語基盤モデルに基づく大規模物体操作データセットにおけるタスク成功判定

齋藤 大地

09:20 〜 09:40

[3O1-OS-16b-02] マルチモーダルLLMおよび視覚言語基盤モデルに基づく大規模物体操作データセットにおけるタスク成功判定

〇齋藤大地¹、神原元就¹、九曜克之¹、杉浦孔明¹ (1. 慶應義塾大学)

キーワード：マニピュレータ、物体操作、Vision-and-Language、マルチモーダルLLM、タスク成功判定

マニピュレータによる物体操作におけるモデル性能向上のためには，高性能なタスク成功判定機構が重要である．一方で，その性能はいまだに不十分である．そこで本論文では，複数の物体操作タスクに対応可能なタスク成功判定機構を構築することを目的とする．提案手法における主要な新規性の一つであるλ-Representationは，物体の色や形状などの視覚的な特徴，自然言語にアラインされた特徴，および言語を媒介とした構造的な特徴のすべてを保持する．実験にあたり，RT-1およびVLMbenchに基づいて，物体操作タスクにおける成功判定のためのデータセットを新たに構築した．本データセットにおいて，提案手法は分類精度において全てのベースライン手法を上回る結果を得た．

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

講演情報

[3O1-OS-16b] 世界モデルと知能

[3O1-OS-16b-02] マルチモーダルLLMおよび視覚言語基盤モデルに基づく大規模物体操作データセットにおけるタスク成功判定

パスワード