17:30 〜 17:45
[9p-Z09-17] 材料辞書データベースを使った論文からの大量データ抽出:材料用語の階層化による体系的自動タグ付け
キーワード:マテリアルズインフォマティクス, テキストデータマイニング, 材料データベース
マテリアルズ・インフォマティクス(MI)用学習データの効率的収集を目的に、大量学術論文から専門用語を抽出し分類することで材料辞書として構築している。抽出した用語をルールベースで自動階層構造化する手法を構築し、RDF(Resource Description Framework)によりデータベース化した。辞書内用語はそれぞれ階層概念や同義語等の情報を有するため、これを学術論文に自動アノテーションすることでMIの目的に応じた学習データの自動生成が可能になると考える。