判断根拠を説明する視覚言語モデルの自己改善手法

丹治 直人

14:40 〜 15:00

[4A3-GS-10-03] 判断根拠を説明する視覚言語モデルの自己改善手法

〇丹治直人¹、山崎俊彦² (1. Septeni Japan株式会社、2. 東京大学)

キーワード：深層学習、視覚言語モデル、説明可能AI、自己改善

画像スコアリングは実社会で広く応用されているタスクであるが、実用においてはモデルの判断を信頼するための根拠の理解が重要である。本論文では、Vision Language Models (VLMs) に自身の判断根拠を自然言語で説明させるための学習手法を提案する。画像スコアリングデータセットと指示チューニング済みVLMのみを活用し、外部データやモデルを使用せずに、VLMの生成テキストを用いた自己学習を行う。加えて、予測スコアとテキスト説明の一貫性向上を目的としたデータセット作成のための簡易な手法も提案する。2種のデータセットに対して Direct Preference Optimization による学習を行い、それらをマージすることを繰り返すことで、スコアリング精度と説明文章の一貫性の双方において改善を達成した。

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

講演情報

[4A3-GS-10] AI応用：大規模言語モデル

[4A3-GS-10-03] 判断根拠を説明する視覚言語モデルの自己改善手法

パスワード