2023年度 人工知能学会全国大会(第37回)

講演情報

一般セッション

一般セッション » GS-6 言語メディア処理

[2E4-GS-6] 言語メディア処理

2023年6月7日(水) 13:30 〜 15:10 E会場 (大会議室 A2)

座長:赤間 怜奈(東北大学) [現地]

14:10 〜 14:30

[2E4-GS-6-03] 言語情報と画像情報を用いたPOIの業種予測のためのマルチモーダル深層モデル

〇澤田 一正1、沖本 祐典2、金森 研太2、野田 五十樹1、小山 聡1、宰川 潤二2 (1. 北海道大学、2. ヤフー株式会社)

キーワード:マルチモーダル深層学習、口コミ

施設や店舗などといったPOI(Point of Interest)を扱うサービスにおいて,POIの業種情報を保有し,その業種情報が正確であることは重要である.正確な業種情報を多くのPOIで得るためには,機械学習を用いて名称や口コミなどのPOIの情報から予測することが有用である.近年,マルチモーダルな深層モデルが多くのタスクで高い性能を示すことが報告されており,POIの業種予測においても有用であることが期待される.本研究では,名称や口コミなどの言語情報とユーザーの投稿画像などの画像情報を入力とする,マルチモーダルな POI の業種予測のための深層モデルを提案する.提案モデルでは,画像情報を有効に用いるため,(1)言語情報のみを用いた予測に対する損失の導入(2)POIごとに複数の画像を入力するためのPoolingの導入,の2点の工夫を行っている.ヤフー株式会社が保有するPOIデータベースから飲食店のデータセットを作成し,それを用いて評価を行ったところ,言語情報や画像情報のみを用いるベースラインに比べて,提案手法で業種予測の性能の改善が確認された.

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

パスワード