[2Win5-87] JSynFlow: LLMを活用した日本語フローチャートVQAデータセット合成
キーワード:データセット、大規模言語モデル、生成AI、マルチモーダル
視覚言語モデル(VLM)は,各種文書解析タスクを質疑応答(QA)形式で行えるようになると期待されている.さらに,文書中のフローチャートのような図には,文字情報では表しにくい情報が示されていることから,VLMにこれらを認識できるようにすることも求められる.正確にフローチャートを理解するVLMの構築には,学習及び評価のための大量のフローチャート画像及び対応するテキストデータの整備が必要であるが,そのようなデータセットの整備には多大な労力を要する.この問題に対処するため,大規模言語モデルを用いてフローチャート画像QA(VQA)データセットを作成した.本データセットは,具体的な職業を複数想定し,各職業で想定される業務の手順,ドメイン特化言語(DSL)を用いて記述された業務手順のフローチャート,DSLコードからレンダリングされたフローチャート画像,及びフローチャートに関連するQAデータから構成される.本データセットについて,作成手順を併せ紹介する.また,本データセットをVLMのファインチューニングに適用した例を,適用前後でのフローチャートVQAタスクに対する性能の変化と併せて報告する.
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。