2024年度 人工知能学会全国大会(第38回)

講演情報

一般セッション

一般セッション » GS-7 画像音声メディア処理

[1D3-GS-7] 画像音声メディア処理:

2024年5月28日(火) 13:00 〜 14:40 D会場 (イベントホール仮設2)

座長:田崎豪(名城大学)

13:20 〜 13:40

[1D3-GS-7-02] マルチモーダルEmbeddingsによるECサイト画像のスタイル分析

〇葛木 美紀1、田中 謙司1 (1. 東京大学大学院)

キーワード:大規模言語モデル、エンベディング、クラスタリング

Eコマース市場の成長と技術の進化により、消費者の詳細な購買行動分析や好みの理解は重要な課題となっており、特に、製品画像の視覚的な魅力が消費者エンゲージメントにおいて重要な役割を果たしている。 この研究では、ECサイトにおけるアート画像のスタイルやニュアンスを捉えるためにマルチモーダル Embeddings を利用し、画像のスタイル分析を行った。具体的には、COCA (Contrastive Captioners are Image-Text Foundation Models) を採用することで、製品画像の複雑なパターンやスタイル要素を反映するマルチモーダル Embeddings を抽出し、クラスタリングにより画像を個別のスタイル グループに分類した。分析の結果、マルチモーダル Embeddings が画像スタイルの微妙な変化を効果的に検出する能力を持っていることが明らかになた。また、このような生成 AI の活用により、消費者が好む画像の特徴についての理解が向上する可能性が示唆された。

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

パスワード