[4Xin2-111] 生成モデルは空間概念を捉えているか:意匠データを用いた空間理解タスクの提案
キーワード:大規模言語モデル、生成モデル、空間概念
人間は様々な事前知識をもとに,ある物体のあらゆる方向からの見え方を想像することができる。本研究では,近年の大規模生成モデルがこの能力を有するかどうかを測るためのタスクを提案し,現行のモデルについて分析を試みる。具体的には,ある物体の正面画像と,同じ物体を別の視点から見た画像をモデルに入力し,入力した画像の視点を問うタスクとする。評価データセットは,意匠データベースのスケッチ画像と視点情報が述べられたテキストをデータソースとして構築した。実験では,GPT-4Vを対象として構築した評価データセットを用いて空間理解能力に関する分析を行う。実験の結果から,GPT-4Vの空間理解能力の可能性と課題について考察する。
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。