2023年度 人工知能学会全国大会(第37回)

講演情報

一般セッション

一般セッション » GS-7 画像音声メディア処理

[1O5-GS-7] 画像音声メディア処理

2023年6月6日(火) 17:00 〜 19:00 O会場 (会議室 E1+E2)

座長:真矢 滋(東芝) [現地]

17:00 〜 17:20

[1O5-GS-7-01] Text-to-Imageモデルの学習における最適キャプションの探索

〇中尾 純平1、磯沼 大1,2、森 純一郎1,3、坂田 一郎1 (1. 東京大学、2. エディンバラ大学、3. 理研 AIP)

キーワード:深層学習、マルチモーダル、二段階最適化

キャプションから画像を生成するText-to-Imageモデルの学習では、膨大な画像・キャプションのペアで構成されるデータセットが用いられる。しかし、このようなデータセットのキャプションは人手で付与されたものであり、Text-to-Imageモデルの学習にはより適したキャプションが存在すると考えられる。そこで本研究では、Text-to-Imageモデルの学習により適したキャプションを探索する学習フレームワークを提案する。具体的には、画像から擬似キャプションを出力するモデルを新たに導入し、このモデルとText-to-Imageモデルのパラメータを二段階最適化によって交互に更新する。本稿では提案手法に向けた予備的な取り組みとして、Text-to-Imageモデルの学習における二段階最適化の有効性を評価した。

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

パスワード