JSAI2025

Presentation information

Tutorial

Tutorial » Tutorial

[3A4-TS-3] 大規模視覚言語モデルの開発

Thu. May 29, 2025 1:40 PM - 3:20 PM Room A (Large hall)

座長:鈴木 彼方(富士通)

1:40 PM - 3:20 PM

[3A4-TS-3-01] 大規模視覚言語モデルの開発

鈴木 哲平1、田中 稔之1、髙田 拓実1、品川 政太朗1 (1. SB Intuitions株式会社)

現在,大規模言語モデル(LLM)をはじめとした生成AI技術は以前に増して生活に身近な技術となっている.LLMの発展の中において,その高い認識・理解能力からLLMを様々なモダリティの認識・理解に活用する研究が数多く取り組まれている.特に,視覚情報処理という観点で,大規模視覚言語モデル(VLM)はその多岐にわたる応用から重要な技術となっており,現在までに様々なモデルが開発されている.
本講演では,まずはじめにLLMを基礎としたVLMのトレンドを俯瞰する.その後,VLMの学習データの構築から,学習,評価まで一連の開発のフローを,近年の研究事例やSB Intuitionsが公開しているVLMであるSarashina2-Visionの開発経験から得られた知見や課題を踏まえて紹介する.

Authentication for paper PDF access
A password is required to view paper PDFs. If you are a registered participant, please log on the site from Participant Log In.
You could view the PDF with entering the PDF viewing password bellow.

Password