18:00 〜 18:20
[2E5-J-6-03] サイト内の話題分布素性を用いた分類器学習によるノウハウサイト同定
キーワード:ノウハウサイト、トピックモデル、doc2vec、トピック分布
検索エンジンが果たすべき重要な責務として,有益な情報を掲載するページと,有益な情報は掲載しないが,SEO対策の結果ウェブ検索上位に順位付けされるページをいかにして識別するか,という課題が挙げられる.本論文の予備調査においては,クエリをGoogle検索エンジンで検索した際の上位50件のウェブページのうち, ノウハウ知識を掲載するページの割合は,50%以下であった.これより,検索エンジンのユーザーは有益な情報が掲載されているウェブページを判別するのが困難なことが予想される.このことをふまえて,本論文では,ノウハウ知識を含むウェブサイトをドメイン単位で自動的に判定することを目的とし,その分類方法を提案する. 提案する分類方法は,ウェブページの収集,トピックモデルを用いたウェブページのクラスタリング,各ドメインの特徴抽出,SVMのトレーニングからなり,それらの手法について記述する.また,評価実験の結果において,一定以上の再現率・適合率が達成できたことを示す.