[2Win5-33] LLMを用いたウェブページ分類によるクローリング支援
キーワード:クローリング、大規模言語モデル、GPT-4o、ウェブページ分類、テキスト分類
クローラはウェブページを収集するためのシステムであり,新着ページを効率的に収集するには適切なアルゴリズムを用いる必要がある.XMLサイトマップなどのサイト機能や過去のページ更新頻度は新着ページ収集のための重要な手掛かりであるが,様々な条件において汎用的に使用するのは難しい.本研究では大規模言語モデル(LLM)を用いてウェブページを「インデックスページ」と「コンテンツページ」の2種類に分類し,インデックスページを起点とすることで新着ページを効率的に取得する手法を提案する.実験ではページ種類が自動アノテートされたデータセットを構築し,ページ種類の分類性能および新着ページの収集網羅率の2つの観点で評価を行った.実験結果により,LLMによってベースライン手法と比較して両方の評価観点で高い性能を達成することを確認した.
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。