14:00 〜 14:20
[4M3-GS-3-01] 専門書の数式とテキストから材料物性間の定量的関係性を抽出する
キーワード:数式、変数の意味、自然言語処理
材料科学に関する教科書・専門書から自然言語処理により、密度や硬さなど材料の特性(物性)の間に関係がある場合に、その記述を自動的に抽出して物性間の関係性をグラフ形式のデータベースとして利用するシステムを提唱し(国内・米国特許取得済み)、企業と共同で商品化を目指している。今回、この関係性に定量性を持たせることを目的に、書籍中の数式と数式に含まれる変数の記号、その記号の意味(密度や硬さ)をコンピュータにより自動抽出するための技術開発を行った。書籍はほとんどPDF形式で供給されており、これを市販のOCRを用いてXHTMLに変換し、XHTML中のpresentation MathMLから数式を見つけ出して変数の記号を抜き出し、数式の前後の文章中から変数記号が含まれる文を抜き出し、それらの文中から変数記号の意味(数式中のdが密度を意味するなど)を自動的に抽出する試みを行った。なお、変数記号の意味が近辺に記述されていない場合は「記載が無い」という出力とした。文のパターンからルールベースで行う方法、構文解析+ルールベースで行う方法、機械学習による方法を試した。それぞれの方法による結果を報告する。
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。