[2Yin5-22] 特性を顕在化する言語の意味を反映した画像生成
キーワード:形容詞の意味のグラウンディング、Text-to-Image、VAE
近年,機械学習や深層学習を用いたテキストからの画像生成に関する研究(text-to-image)が盛んに行われている.
「茶色と黒の縞模様の羽を持ち,黄色い喙の鳥」のように物体の形状を形容する表現に基づく画像生成を行うことは可能になっているが,その形状自体がどのような特性を持っているかという理解に基づいて画像を生成することは出来ていない.
本研究では,特性を表現するための言語(特に形容詞を対象)の意味が顕在化する方向性と物体の形状変化の方向性の対応関係を学習し,言語により物体の特性を強調する形状変化を伴なう画像生成を行うことを目的とする.
具体的な試みとして,靴の画像を題材としShoes, Boots, Sandalsという3つの靴カテゴリに対し,open, pointy, sporty, comfortableという4種類の形容詞を組み合わせて,“Sporty Boots”などといったテキストから形容詞と靴画像の特性を汲み取り,生成画像に反映させる.
「茶色と黒の縞模様の羽を持ち,黄色い喙の鳥」のように物体の形状を形容する表現に基づく画像生成を行うことは可能になっているが,その形状自体がどのような特性を持っているかという理解に基づいて画像を生成することは出来ていない.
本研究では,特性を表現するための言語(特に形容詞を対象)の意味が顕在化する方向性と物体の形状変化の方向性の対応関係を学習し,言語により物体の特性を強調する形状変化を伴なう画像生成を行うことを目的とする.
具体的な試みとして,靴の画像を題材としShoes, Boots, Sandalsという3つの靴カテゴリに対し,open, pointy, sporty, comfortableという4種類の形容詞を組み合わせて,“Sporty Boots”などといったテキストから形容詞と靴画像の特性を汲み取り,生成画像に反映させる.
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。