2024年度 人工知能学会全国大会(第38回)

講演情報

ポスターセッション

ポスターセッション » ポスターセッション

[3Xin2] ポスターセッション1

2024年5月30日(木) 11:00 〜 12:40 X会場 (イベントホール1)

[3Xin2-57] データ駆動型材料開発に向けた少量の学習データによる特許からの実験データ抽出技術

〇露木 雅文1、我妻 正太郎1、武藤 和夫1 (1.株式会社 日立製作所)

キーワード:固有表現抽出、テキストマイニング、大規模言語モデル、マテリアルズインフォマティクス、データ駆動形材料開発

近年、情報技術で材料開発を高度化・低コスト化する「データ駆動型材料開発」が注目されている。その推進上の課題はデータ不足である。例えば、化学反応の収率予測には合成条件と収率のデータが大量に必要となる。実験によるデータ収集は高コストのため、文献からのデータ抽出(機械学習による固有表現抽出)をまず検討すべきである。特に、工数最小化のため少量の学習データで固有表現抽出できることが好ましい。そこで本研究では少量データでも高性能と報告されている大規模言語モデル(LLM)に注目し、合成条件と収率を含む10クラスの単語を化学系特許から抽出するChEMU2020データセットで精度評価した。学習データなしの場合、GPT-4の抽出精度はF1値0.60となり、「収率」などの数値は正確だが専門知識が必要な「触媒」などの化合物の役割は推定困難とわかった。そこで、小規模だが科学分野に特化したSciBERTを少量(50件)の実施例でファインチューニングしたところF1値0.68に改善した。この結果より、LLMの出力を人手で修正して効率よく学習データを作成し、ファインチューニングするアプローチが有効とわかった。

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

パスワード