[4Xin2-20] Narrative-to-image: ナラティブに合致した画像の自動生成
キーワード:ナラティブ、画像生成、生成AI
本論文では,「ナラティブ(narrative)」(物語、語り)に合致した画像の自動生成手法を提案する.
近年,ナラティブが注目されている.ナラティブによる情報伝達は,複雑な情報を理解しやすく,感情に訴えかけやすいという特徴がある.一方で,人の情報処理は視覚優位であることが知られており,ナラティブと画像の併用は情報伝達において効果的であることが期待される.そこで,本稿では,画像生成AI(Text-to-image)を用いて,ナラティブの文章を入力として文章に合致した画像を生成することを目指す.
ナラティブでは,文章内に書き手のメッセージが明示的に記載されない場合も多く,文章から画像生成プロンプトを直接生成する手法ではナラティブの主題を正しく表現できない.そこで,提案手法では,ナラティブを表現するための画像の特徴を段階的に具体化していくことで画像生成プロンプトを生成する.また,複数枚の生成画像をVision Language Modelにより評価することで,より合致度の高い画像を選別し出力する.生成画像に対する主観評価を行い,提案手法がナラティブにより合致した画像を生成できることが示唆された.
近年,ナラティブが注目されている.ナラティブによる情報伝達は,複雑な情報を理解しやすく,感情に訴えかけやすいという特徴がある.一方で,人の情報処理は視覚優位であることが知られており,ナラティブと画像の併用は情報伝達において効果的であることが期待される.そこで,本稿では,画像生成AI(Text-to-image)を用いて,ナラティブの文章を入力として文章に合致した画像を生成することを目指す.
ナラティブでは,文章内に書き手のメッセージが明示的に記載されない場合も多く,文章から画像生成プロンプトを直接生成する手法ではナラティブの主題を正しく表現できない.そこで,提案手法では,ナラティブを表現するための画像の特徴を段階的に具体化していくことで画像生成プロンプトを生成する.また,複数枚の生成画像をVision Language Modelにより評価することで,より合致度の高い画像を選別し出力する.生成画像に対する主観評価を行い,提案手法がナラティブにより合致した画像を生成できることが示唆された.
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。