マルチモーダル生成AIを用いた多数の視覚要素を含むWebデザインの生成手法

村田 達郎

15:00 〜 15:20

[1Q3-OS-35-05] マルチモーダル生成AIを用いた多数の視覚要素を含むWebデザインの生成手法

〇村田達郎¹、中田百科¹、薬師寺政和¹、高橋諒¹ (1. 株式会社リクルート)

キーワード：Webデザイン自動生成、マルチモーダル生成AI、HTMLコード生成

本研究では、多数の視覚要素を含む複雑なWebデザインを自動生成する新たな手法を提案する。ここで視覚要素とは、Webデザイン上の写真やロゴなどの画像に関する情報を指す。Webデザインの自動生成は、システム導入の迅速化、開発コストの削減を実現する技術として注目されている。近年のマルチモーダル生成AIの進展により、画像を基にHTMLコードを生成する技術が研究されてきた。しかし、これまで視覚要素を含めたHTMLコードの自動生成の取り組みは少なく、視覚要素の正確な情報取得と適切なレイアウト配置が課題であった。そこで本研究では、文書解析に特化した物体検出モデルを用いて視覚要素を精密に認識する。次に、視覚要素の位置情報と画像情報を活用し、マルチモーダル生成AIにより適切なレイアウト配置を実現するHTMLコードを自動生成する。本研究では、提案手法を飲食メニュー画像を対象とするWebデザイン自動生成タスクに適用し、有効性を実証した。

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

講演情報

[1Q3-OS-35] 非構造データからの情報抽出

[1Q3-OS-35-05] マルチモーダル生成AIを用いた多数の視覚要素を含むWebデザインの生成手法

パスワード