2025年度 人工知能学会全国大会(第39回)

講演情報

一般セッション

一般セッション » GS-7 画像音声メディア処理

[3N6-GS-7] 画像音声メディア処理:視覚言語モデル

2025年5月29日(木) 17:40 〜 19:20 N会場 (会議室1009)

座長:壹岐 太一(NTT)

18:40 〜 19:00

[3N6-GS-7-04] 視覚大規模言語モデルの潜在力を引き出す

多層認知マップと空間情報プロンプトによる空間認知能力の向上

〇馮 奇1 (1. 京都大学)

キーワード:視覚大規模言語モデル、空間推論、認知マップ、マルチモーダル学習、プロンプト設計

本研究は、視覚大規模言語モデルの空間認知能力を調査し、その潜在能力を引き出す新たな手法を提案することを目的とする。多層的な認知マップと空間情報を含むプロンプト設計を用いることで、VLLMの空間推論能力を向上させる方法を検討した。方法として、異なる解像度の認知マップを構築し、柔軟なサイズのマップも生成した。また、空間スケールやナビゲーションに関する質問・回答ペアを設計し、モデルに提示した。評価にはVSI-Benchデータセットを用い、LLaVA-OneVisionとGemini-1.5-Flashを比較した。結果、柔軟なサイズの認知マップがLLaVA-OneVisionの性能向上に寄与した。一方、クローズドソースモデルでは追加情報が不正確な場合に性能低下を引き起こす可能性が示唆された。結論として、VLLMはローカルな空間関係を把握できる一方、グローバルな空間構造の理解には課題が残る。本研究は、特にオープンソースモデルの空間認知向上に有効であり、さらなる性能向上にはデータセット構築や専用トークンの導入が有望である。

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

パスワード