16:20 〜 16:40
[4F4-GS-10o-03] 固有表現抽出器による無機材料論文に記載された合成材料名と特性値の抽出
キーワード:マテリアルズ・インフォマティクス、テキストマイニング、固有表現抽出
無機材料分野では,合成材料名とその特性値が紐付いたデータを活用した統計的な探索により,優れた特性をもつ材料を短時間で発見するための取り組みが行われている.しかしながら,現在のところ,合成材料名とその特性値が紐付いた大規模なデータベースはほとんど存在しない.そこで本研究では,論文からの情報抽出に着目し,論文中に自然言語で記載された電池の合成材料名を抽出する既存のアノテーションスキームに対して,新たに特性値ラベルを追加することで合成材料名と特性値を同時に抽出できるように改善した.そして,提案するアノテーションスキームに基づき301件の論文テキストにラベル付けを実施し,このラベル付きテキストを用いて固有表現抽出モデルを学習した.評価の結果,学習した固有表現抽出モデルは高い抽出性能をもつことがわかった.さらに,学習した固有表現抽出モデルを用いて,実際の材料論文24,415 件から合成材料名と特性値の組を抽出した.最後に抽出結果を簡易的に可視化し,年代ごとの材料トレンドについて考察を行うことにより,合成プロセスと特性値の組で構成された大規模なデータベースの有用性を示した.
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。