[3Win5-34] グラフ情報の記述を使ったCLIPの対照学習は画像エンコーダーのダイアグラム認識能力を向上させる
キーワード:マルチモーダル、グラフ、大規模言語モデル、図表認識、視覚言語モデル
図表を含む文書を入力とするテキスト生成タスクには,テキストと画像の両方に基づく推論が可能なVisual language model(VLM)の活用が期待されている.特に産業応用のためには,技術文書に頻出するフローチャートや回路図など,線と図形を用いて構造や関係性を視覚化する図表(ダイアグラム)を正確に認識することが求められる.しかし、近年の研究は、VLMで広く用いられる画像エンコーダーがダイアグラムを正確に認識していない可能性を指摘している。本研究では、画像エンコーダーのエッジ認識能力獲得における学習データの寄与を実験的に評価した。具体的には、人工的に生成したダイアグラム画像と、Mermaid記法で記述したグラフ情報のテキストを用いた対照学習を実施した。その結果、エッジの有無や方向に関する画像エンコーダーの認識性能が複数の指標で向上することを確認し,VLMのダイアグラム認識能力におけるCLIPの学習データの寄与の一部を明らかにした.
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。