2018年度人工知能学会全国大会(第32回)

講演情報

口頭発表

一般セッション » [一般セッション] 9.自然言語処理・情報検索

[2L1] 自然言語処理-情報抽出

2018年6月6日(水) 09:00 〜 10:40 L会場 (3F サファイアホール飛鳥)

座長:柳瀬 利彦(株式会社 日立製作所)

10:00 〜 10:20

[2L1-04] 数学用語をクエリとするWeb上のPDF文書を対象とした数式検索

〇山田 奉子1、村上 晴美1 (1. 大阪市立大学)

キーワード:数学情報検索、数式画像、Web検索

Web上の数式は自然言語で注釈をつけられていないので,通常の検索エンジンを用いて検索をすることは難しい.提案手法は,数学用語をクエリとしてWeb検索を行い,得られたPDF文書からクエリに関連する数式を抽出するものである.先ず,PDFをTeXに変換後,TeXの数式記述から画像を作成し画像特徴量を得る.この画像特徴量を用いて,数式とクエリとの関連をSVMで判定する.PDFのみ,HTMLのみ,及び両方を用いて比較実験を行った.実験の結果,MRRにおいて,PDFとHTMLの両方を用いた値が最も良かった.