15:00 〜 15:20
[1N4-OS-10a-03] CLIP-GANを用いたtext-to-imageモデルのAttentionによる構造化
キーワード:深層生成モデル、テキストからの画像生成、記号接地、人工的な創造性
熟慮といえるような「論理的思考」は観測や過去の経験に基づいて自らの推論結果を更新していく行為である.近年,テキストと画像の一致度を評価するCLIPというモデルが登場し,これと既存の深層生成モデル(GANなど)を組み合わせてtext-to-imageを行う方法が注目されている.この手法は生成モデルの出力結果をCLIPの評価値を元に,入力テキストとより合致するように反復的に更新していくものとなっており,これは一種の熟慮と言える.多くの深層生成モデルは一発で推論や生成を行っており,これはSystem1的な直感的な生成であるが,CLIPを用いて反復的な更新を行うことは熟慮や,System2によるSystem1の制御とも言える過程である.しかし,現状では一般的な深層生成モデルを元に構築されているため,画像全体を一気に更新していくことしかできず,「十分に構造化されていない思考プロセス」となってしまっている懸念がある.そこで本研究ではattentionをかけて局所的に更新を行うことが可能なモデル構造を提案し,生成品質の向上や,熟慮において何が重要かについての考察を試みる.
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。