言語情報と画像情報を用いたPOIの業種予測のためのマルチモーダル深層モデル

澤田 一正

14:10 〜 14:30

[2E4-GS-6-03] 言語情報と画像情報を用いたPOIの業種予測のためのマルチモーダル深層モデル

〇澤田一正¹、沖本祐典²、金森研太²、野田五十樹¹、小山聡¹、宰川潤二² (1. 北海道大学、2. ヤフー株式会社)

キーワード：マルチモーダル深層学習、口コミ

施設や店舗などといったPOI(Point of Interest)を扱うサービスにおいて，POIの業種情報を保有し，その業種情報が正確であることは重要である．正確な業種情報を多くのPOIで得るためには，機械学習を用いて名称や口コミなどのPOIの情報から予測することが有用である．近年，マルチモーダルな深層モデルが多くのタスクで高い性能を示すことが報告されており，POIの業種予測においても有用であることが期待される．本研究では，名称や口コミなどの言語情報とユーザーの投稿画像などの画像情報を入力とする，マルチモーダルな POI の業種予測のための深層モデルを提案する．提案モデルでは，画像情報を有効に用いるため，(1)言語情報のみを用いた予測に対する損失の導入(2)POIごとに複数の画像を入力するためのPoolingの導入，の2点の工夫を行っている．ヤフー株式会社が保有するPOIデータベースから飲食店のデータセットを作成し，それを用いて評価を行ったところ，言語情報や画像情報のみを用いるベースラインに比べて，提案手法で業種予測の性能の改善が確認された．

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

講演情報

[2E4-GS-6] 言語メディア処理

[2E4-GS-6-03] 言語情報と画像情報を用いたPOIの業種予測のためのマルチモーダル深層モデル

パスワード