マルチアスペクト比Vision Transformerの事前学習と広告画像の効果予測への応用

丹治 直人

09:20 〜 09:40

[4I1-GS-7-02] マルチアスペクト比Vision Transformerの事前学習と広告画像の効果予測への応用

〇丹治直人¹、山崎俊彦² (1. Septeni Japan株式会社、2. 東京大学)

キーワード：深層学習、コンピュータビジョン、オンライン広告、Transformer

効果的なオンライン広告の作成のためには, 配信前に広告効果を予測することが有用である. ウェブ上で配信されるディスプレイ広告画像は多様なアスペクト比を持っており, アスペクト比を変えるような前処理は人が画像を見たときの印象も変えてしまうため, 正確な広告効果の予測のためにはアスペクト比の情報を保持してモデルに入力することが重要だと考えられる. 本研究では, 任意のアスペクト比の画像を扱うことができるVision TransformerモデルをMasked Autoencoderの手法を用いて広告画像で事前学習することで, 広告画像専用の画像認識モデルを作成した. Rotary Position EmbeddingとFlash Attentionを活用することで, 入力画像サイズに対する柔軟性が高いモデルが得られた. 事前学習モデルを実際の広告配信データを用いたクリック率予測タスクに適用した結果も示す.

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

講演情報

[4I1-GS-7] 画像音声メディア処理：

[4I1-GS-7-02] マルチアスペクト比Vision Transformerの事前学習と広告画像の効果予測への応用

パスワード