09:20 〜 09:40
[3N1-GS-7-02] 画像言語参照プロンプトを適用したSegment Anything ModelによるFew-shotセグメンテーションモデル
キーワード:画像セグメンテーション、Few-shotセグメンテーション、Segment Anything Model、画像言語モデル、マルチモーダルモデル
強力なゼロショット機能を有する大規模なセグメンテーションモデルであるSegment Anything Model(SAM)が近年脚光を浴びている.SAMは,ゼロショットであらゆる物体をセグメントできる反面,各画像に対してユーザーがプロンプトを指定する必要があり,かつマスクラベルを提供しない.これらの問題に対処したFew-shotセグメンテーションモデルでは,参照画像をSAMへ入力することで,ユーザーがプロンプトを指定しなくても特定の物体をセグメント可能である.しかし,従来のSAMベースのFew-shotセグメンテーションモデルは,参照画像のみを使用しているため,情報不足により精度が制限されるという課題があった.本研究では,参照画像だけでなく言語情報もSAMに入力する新たなFew-shotセグメンテーションモデルを提案する.言語情報も考慮することで,参照画像の視覚的類似度と言語ラベルの意味的類似度を活用でき,大幅な精度向上が見込まれる.本研究では,2つのデータセットを用いて評価実験を行い,従来のstate-of-the-artモデルを大幅に(6.3%/9.5%)上回る性能を達成した.
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。