9:20 AM - 9:40 AM
[3N1-GS-7-02] A Study on Few-shot Segmentation by Vision-Language Reference Prompt with Segment Anything Model
Keywords:Image Segmentation, Few-shot Segmentation, Segment Anything Model, Vision-Language Model, Multimodal Model
強力なゼロショット機能を有する大規模なセグメンテーションモデルであるSegment Anything Model(SAM)が近年脚光を浴びている.SAMは,ゼロショットであらゆる物体をセグメントできる反面,各画像に対してユーザーがプロンプトを指定する必要があり,かつマスクラベルを提供しない.これらの問題に対処したFew-shotセグメンテーションモデルでは,参照画像をSAMへ入力することで,ユーザーがプロンプトを指定しなくても特定の物体をセグメント可能である.しかし,従来のSAMベースのFew-shotセグメンテーションモデルは,参照画像のみを使用しているため,情報不足により精度が制限されるという課題があった.本研究では,参照画像だけでなく言語情報もSAMに入力する新たなFew-shotセグメンテーションモデルを提案する.言語情報も考慮することで,参照画像の視覚的類似度と言語ラベルの意味的類似度を活用でき,大幅な精度向上が見込まれる.本研究では,2つのデータセットを用いて評価実験を行い,従来のstate-of-the-artモデルを大幅に(6.3%/9.5%)上回る性能を達成した.
Authentication for paper PDF access
A password is required to view paper PDFs. If you are a registered participant, please log on the site from Participant Log In.
You could view the PDF with entering the PDF viewing password bellow.