[2Win5-57] Text-to-Image モデルにおける多属性に対応したテンプレートベース評価手法
キーワード:人工知能、画像合成、拡散過程、性能評価
Stable diffusion (SD) など画像生成AIモデルの普及に伴い、テキストと生成された画像の適合性の評価は重要な課題である。Text-Image Alignment Metric(TIAM)は、テンプレートベースの手法を用いて、指定されたオブジェクトの数、属性を多角的に評価できるが、属性の評価は色に限定されている。SDsは色だけでなく、形状やサイズなど、多様な属性を表現できるため、より包括的な評価が必要である。本研究では、TIAMを拡張し、画像生成過程で得られるAttention Mapsと画像言語モデルを組み合わせることで、色以外のサイズ、年齢、形状、素材の属性をテンプレートベースで評価できる新たな評価手法を提案する。提案手法の有効性を検証するため、アンケート調査による評価と比較した。その結果、提案手法はベースラインよりも人の評価に近く、より正確に生成画像の属性を評価できることが示された。さらに、SD1.4に対して、属性の種類と数における生成能力を検証したところ、属性の種類によって生成能力にばらつきがあり、属性の数が増えると生成能力が低下することが明らかになった。
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。