大規模視覚言語モデルの開発

鈴木 哲平

1:40 PM - 3:20 PM

[3A4-TS-3-01] 大規模視覚言語モデルの開発

鈴木哲平¹、田中稔之¹、髙田拓実¹、品川政太朗¹ (1. SB Intuitions株式会社)

現在，大規模言語モデル（LLM）をはじめとした生成AI技術は以前に増して生活に身近な技術となっている．LLMの発展の中において，その高い認識・理解能力からLLMを様々なモダリティの認識・理解に活用する研究が数多く取り組まれている．特に，視覚情報処理という観点で，大規模視覚言語モデル（VLM）はその多岐にわたる応用から重要な技術となっており，現在までに様々なモデルが開発されている．
本講演では，まずはじめにLLMを基礎としたVLMのトレンドを俯瞰する．その後，VLMの学習データの構築から，学習，評価まで一連の開発のフローを，近年の研究事例やSB Intuitionsが公開しているVLMであるSarashina2-Visionの開発経験から得られた知見や課題を踏まえて紹介する．

Authentication for paper PDF access
A password is required to view paper PDFs. If you are a registered participant, please log on the site from Participant Log In.
You could view the PDF with entering the PDF viewing password bellow.

Presentation information

[3A4-TS-3] 大規模視覚言語モデルの開発

[3A4-TS-3-01] 大規模視覚言語モデルの開発

Password