1:40 PM - 3:20 PM
[3A4-TS-3-01] 大規模視覚言語モデルの開発
現在,大規模言語モデル(LLM)をはじめとした生成AI技術は以前に増して生活に身近な技術となっている.LLMの発展の中において,その高い認識・理解能力からLLMを様々なモダリティの認識・理解に活用する研究が数多く取り組まれている.特に,視覚情報処理という観点で,大規模視覚言語モデル(VLM)はその多岐にわたる応用から重要な技術となっており,現在までに様々なモデルが開発されている.
本講演では,まずはじめにLLMを基礎としたVLMのトレンドを俯瞰する.その後,VLMの学習データの構築から,学習,評価まで一連の開発のフローを,近年の研究事例やSB Intuitionsが公開しているVLMであるSarashina2-Visionの開発経験から得られた知見や課題を踏まえて紹介する.
本講演では,まずはじめにLLMを基礎としたVLMのトレンドを俯瞰する.その後,VLMの学習データの構築から,学習,評価まで一連の開発のフローを,近年の研究事例やSB Intuitionsが公開しているVLMであるSarashina2-Visionの開発経験から得られた知見や課題を踏まえて紹介する.
Authentication for paper PDF access
A password is required to view paper PDFs. If you are a registered participant, please log on the site from Participant Log In.
You could view the PDF with entering the PDF viewing password bellow.