11:30 〜 11:45
[22a-M206-10] 材料辞書データベースを使った論文からの大量データ抽出:体系的自動タグ付け精度向上の検討
キーワード:マテリアルズ・インフォマティクス、テキストデータマイニング、磁石物性
マテリアルズ・インフォマティクス(MI)用学習データを効率的に収集するための技術を構築している。これまで大量の学術論文から材料用語を抽出した材料辞書データベース(MDDB)を構築し、論文内用語に対し体系的に自動タグ付けを行なう手法を開発した。本稿では、自動タグ付けのアリゴリズム改良および精度評価を目的に、手動タグ付けによるアノテーションデータを作成し固有表現抽出によりタグ精度を検証した。