JSAI2025

Presentation information

Organized Session

Organized Session » OS-14

[4M2-OS-14b] OS-14

Fri. May 30, 2025 12:00 PM - 1:40 PM Room M (Room 1008)

オーガナイザ:福地 庸介(東京都立大学),前川 知行(静岡大学),寺田 和憲(岐阜大学),山田 誠二(国立情報学研究所),今井 倫太(慶應義塾大学)

1:20 PM - 1:40 PM

[4M2-OS-14b-05] Image-Text Synthesis based on Impression Utterance

〇Ryuki Matsuoka1, Shiro Kumano2, Michita Imai1, Hiromi Narimatsu2 (1. Keio University, 2. NTT Communication Science Laboratories)

Keywords:HCI, Text-to-Image

人は頭の中のイメージやアイデアなどの抽象的な情報を、形や色といった客観的な情報に加え、質感や印象などの主観的な情報も含めて言語で伝達する。しかし、既存の画像生成モデルでは主観的な言語情報を十分に扱っておらず、ユーザが思い描くイメージとモデルに適したプロンプトが乖離しやすい。その結果、望みどおりの画像を得るためには、何度もプロンプトを修正する必要があり、時間と認知負荷の増大につながる。本研究では、ユーザが抱く主観的な印象言語を画像生成プロセスの評価に直接取り込む新たな手法を提案する。具体的には、ユーザが与えた主観的プロンプトと、生成画像から再生成される主観的印象テキストとの意味的類似性に基づき、生成画像の適合性を評価する。人間実験を通じて生成画像の質および期待する画像が得られるまでの試行回数を検証し、本手法の有効性を示した。

Authentication for paper PDF access
A password is required to view paper PDFs. If you are a registered participant, please log on the site from Participant Log In.
You could view the PDF with entering the PDF viewing password bellow.

Password