2024年度 人工知能学会全国大会(第38回)

講演情報

一般セッション

一般セッション » GS-7 画像音声メディア処理

[2C1-GS-7] 画像音声メディア処理:

2024年5月29日(水) 09:00 〜 10:40 C会場 (イベントホール仮設1)

座長:西澤直樹((株)東芝)

10:00 〜 10:20

[2C1-GS-7-04] テキストと述語論理を用いた拡散モデル

〇末吉 耕大1、松原 崇1 (1. 大阪大学 大学院基礎工学研究科)

キーワード:拡散モデル、画像生成

拡散モデルは近年めざましい成功を収めており,高品質で多様性のある画像生成することが可能になった.しかし,テキストからの画像生成ではユーザーの意図を捉える難しさがある.例えば,指定物体の不足や所有関係の無視が問題である.このような問題に対処するため,述語論理を用いた拡散モデルを提案する.具体的にはアテンションの一画素を述語として捉え,述語論理を用い設定した命題を満たすように画像生成を行う.検証では様々なテキストに対し,本手法が有効であるとわかった.

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

パスワード