10:00 〜 10:20
[2L1-04] 数学用語をクエリとするWeb上のPDF文書を対象とした数式検索
キーワード:数学情報検索、数式画像、Web検索
Web上の数式は自然言語で注釈をつけられていないので,通常の検索エンジンを用いて検索をすることは難しい.提案手法は,数学用語をクエリとしてWeb検索を行い,得られたPDF文書からクエリに関連する数式を抽出するものである.先ず,PDFをTeXに変換後,TeXの数式記述から画像を作成し画像特徴量を得る.この画像特徴量を用いて,数式とクエリとの関連をSVMで判定する.PDFのみ,HTMLのみ,及び両方を用いて比較実験を行った.実験の結果,MRRにおいて,PDFとHTMLの両方を用いた値が最も良かった.