JSAI2025

Presentation information

Organized Session

Organized Session » OS-35

[1Q3-OS-35] OS-35

Tue. May 27, 2025 1:40 PM - 3:20 PM Room Q (Room 804)

オーガナイザ:中田 百科(リクルート),村田 達郎(リクルート),山下 雄大(Megagon Labs)

3:00 PM - 3:20 PM

[1Q3-OS-35-05] Generating Web Designs with Numerous Visual Elements Using Multimodal Generative AI

〇Tatsuro Murata1, Hyakka Nakada1, Masakazu Yakushiji1, Ryo Takahashi1 (1. Recruit Co., Ltd.)

Keywords:Automatic Web Design Generation, Multimodal Generative AI, HTML Code Generation

本研究では、多数の視覚要素を含む複雑なWebデザインを自動生成する新たな手法を提案する。ここで視覚要素とは、Webデザイン上の写真やロゴなどの画像に関する情報を指す。Webデザインの自動生成は、システム導入の迅速化、開発コストの削減を実現する技術として注目されている。近年のマルチモーダル生成AIの進展により、画像を基にHTMLコードを生成する技術が研究されてきた。しかし、これまで視覚要素を含めたHTMLコードの自動生成の取り組みは少なく、視覚要素の正確な情報取得と適切なレイアウト配置が課題であった。そこで本研究では、文書解析に特化した物体検出モデルを用いて視覚要素を精密に認識する。次に、視覚要素の位置情報と画像情報を活用し、マルチモーダル生成AIにより適切なレイアウト配置を実現するHTMLコードを自動生成する。本研究では、提案手法を飲食メニュー画像を対象とするWebデザイン自動生成タスクに適用し、有効性を実証した。

Authentication for paper PDF access
A password is required to view paper PDFs. If you are a registered participant, please log on the site from Participant Log In.
You could view the PDF with entering the PDF viewing password bellow.

Password