言語から画像を生成する深層学習モデルの挙動に関する考察

藤山 千紘

09:20 〜 09:40

[2L1-J-9-02] 言語から画像を生成する深層学習モデルの挙動に関する考察

〇藤山千紘¹、小林一郎¹ (1. お茶の水女子大学)

キーワード：言語と画像のグラウンディング、深層学習、画像生成

本研究では，ヒトの知能のメカニズムを反映して動作する汎用人工知能の構築に向けた基礎的な取り組みとして，text-to-imageモデルを対象に，計算機構の挙動や特徴表現空間の構造の分析を行う．初めに，入力キャプションから単語の境界情報を欠落させた場合の画像生成を行い，モデルの言語エンコード能力および画像生成能力を調べる．その結果，定性的にも定量的にもキャプション内容に適合する画像を生成し得たが言語の意味の単位をモデルが獲得している様子は確認されなかった．二つ目に，埋め込み空間での単語の意味の構成的特性を分析し，空間を意味する単語間に単語の意味の加法構成性が現れる可能性を示唆する結果を得た．

講演情報

[2L1-J-9] 自然言語処理・情報検索: 画像との結合

[2L1-J-9-02] 言語から画像を生成する深層学習モデルの挙動に関する考察