[3Xin2-57] データ駆動型材料開発に向けた少量の学習データによる特許からの実験データ抽出技術
キーワード:固有表現抽出、テキストマイニング、大規模言語モデル、マテリアルズインフォマティクス、データ駆動形材料開発
近年、情報技術で材料開発を高度化・低コスト化する「データ駆動型材料開発」が注目されている。その推進上の課題はデータ不足である。例えば、化学反応の収率予測には合成条件と収率のデータが大量に必要となる。実験によるデータ収集は高コストのため、文献からのデータ抽出(機械学習による固有表現抽出)をまず検討すべきである。特に、工数最小化のため少量の学習データで固有表現抽出できることが好ましい。そこで本研究では少量データでも高性能と報告されている大規模言語モデル(LLM)に注目し、合成条件と収率を含む10クラスの単語を化学系特許から抽出するChEMU2020データセットで精度評価した。学習データなしの場合、GPT-4の抽出精度はF1値0.60となり、「収率」などの数値は正確だが専門知識が必要な「触媒」などの化合物の役割は推定困難とわかった。そこで、小規模だが科学分野に特化したSciBERTを少量(50件)の実施例でファインチューニングしたところF1値0.68に改善した。この結果より、LLMの出力を人手で修正して効率よく学習データを作成し、ファインチューニングするアプローチが有効とわかった。
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。