2019年度 人工知能学会全国大会(第33回)

講演情報

一般セッション

一般セッション » [GS] J-6 Webマイニング

[2E5-J-6] Webマイニング(2)

2019年6月5日(水) 17:20 〜 18:20 E会場 (301A 中会議室)

座長:中山 浩太郎(東京大学/NABLAS株式会社) 評者:伊藤 雅弘(株式会社東芝)

18:00 〜 18:20

[2E5-J-6-03] サイト内の話題分布素性を用いた分類器学習によるノウハウサイト同定

〇大川 遥平1,2、前田 竜冶1、陳 騰揚1、宇津呂 武仁1、河田 容英3 (1. 筑波大学、2. (株)AVILEN、3. (株)ログワークス)

キーワード:ノウハウサイト、トピックモデル、doc2vec、トピック分布

検索エンジンが果たすべき重要な責務として,有益な情報を掲載するページと,有益な情報は掲載しないが,SEO対策の結果ウェブ検索上位に順位付けされるページをいかにして識別するか,という課題が挙げられる.本論文の予備調査においては,クエリをGoogle検索エンジンで検索した際の上位50件のウェブページのうち, ノウハウ知識を掲載するページの割合は,50%以下であった.これより,検索エンジンのユーザーは有益な情報が掲載されているウェブページを判別するのが困難なことが予想される.このことをふまえて,本論文では,ノウハウ知識を含むウェブサイトをドメイン単位で自動的に判定することを目的とし,その分類方法を提案する. 提案する分類方法は,ウェブページの収集,トピックモデルを用いたウェブページのクラスタリング,各ドメインの特徴抽出,SVMのトレーニングからなり,それらの手法について記述する.また,評価実験の結果において,一定以上の再現率・適合率が達成できたことを示す.