JSAI2019

Presentation information

General Session

General Session » [GS] J-6 Web mining

[2E5-J-6] Web mining 2

Wed. Jun 5, 2019 5:20 PM - 6:20 PM Room E (301A Medium meeting room)

Chair:Kotaro Nakayama Reviewer:Masahiro Ito

6:00 PM - 6:20 PM

[2E5-J-6-03] Identifying Know-How Sites by Classifier Learning with Features of Topic Distribution within a Site

〇Yohei Ohkawa1,2, Tatsuya Maeda1, Tengyang Chen1, Takehito Utsuro1, Yasuhide Kawada3 (1. University of Tsukuba, 2. AVILEN Inc., 3. Logworks Co., Ltd.)

Keywords:know-how site, topic model, doc2vec, topic distribution

検索エンジンが果たすべき重要な責務として,有益な情報を掲載するページと,有益な情報は掲載しないが,SEO対策の結果ウェブ検索上位に順位付けされるページをいかにして識別するか,という課題が挙げられる.本論文の予備調査においては,クエリをGoogle検索エンジンで検索した際の上位50件のウェブページのうち, ノウハウ知識を掲載するページの割合は,50%以下であった.これより,検索エンジンのユーザーは有益な情報が掲載されているウェブページを判別するのが困難なことが予想される.このことをふまえて,本論文では,ノウハウ知識を含むウェブサイトをドメイン単位で自動的に判定することを目的とし,その分類方法を提案する. 提案する分類方法は,ウェブページの収集,トピックモデルを用いたウェブページのクラスタリング,各ドメインの特徴抽出,SVMのトレーニングからなり,それらの手法について記述する.また,評価実験の結果において,一定以上の再現率・適合率が達成できたことを示す.