09:30 〜 11:30
[17a-PB02-8] 機械による論文PDFの表からの材料データ抽出
キーワード:材料データ、表、PDF
PDF論文の表から材料データを機械抽出するシステムの開発を検討した。PDF中の表を、既存ツールを利用して抽出した後、材料名と物性名認識を行って、材料名-物性名-数値の3つ組を材料データとして抽出するようにした。材料名認識は、文分類の機械学習を利用し、一般的な材料名表現以外に、著者定義の試料ラベル、IDも、f1=0.89で認識できるようにした。開発で用いた技術、手法とその結果について報告する。