大規模言語モデルに科学関連データを学習・思考させる取り組み

畠山 歓

10:45 〜 11:15

[SCG50-05] 大規模言語モデルに科学関連データを学習・思考させる取り組み

★招待講演

*畠山歓¹ (1.東京工業大学)

キーワード：大規模言語モデル、機械学習、化学

近年の人工知能分野では、大規模言語モデル・基盤モデルの活用という、革新的なパラダイムの変化が進行中である。従来の人工知能は、特定のタスクを解決するための専用アルゴリズムというイメージが強かった｡例えば深層学習を活用した顔認識アルゴリズムや将棋・囲碁のプログラムが人間を凌駕する性能を示しても、そこから人間的な知性を読み取る識者は多くなかった。しかし、GPT-4のような大規模言語モデルは、幻覚などの問題が残っているものの、多くの人が「人工知能」と感じさせる汎用性や推論性能を示している。例えば、2024年1月にはGPT-4が大学共通テストの大半の科目で受験者平均を上回り(https://note.com/lifeprompt/n/n87f4d5510100)、類似の基盤モデルが数学オリンピックで金メダル級の成績を収めた(Loung et al., Nature 2024)。さらに、各科学分野において、大規模言語モデルの活用が急速に進む可能性がある。
本発表では、特に化学分野に焦点を当て、大規模言語モデルが果たし始めている役割について、国内外の動向を紹介する。また、2023年以降、筆者が行っている大規模言語モデル関連の研究の最新進展についても報告する予定である。これには、科学論文を大規模言語モデルに学習させるタスク（https://arxiv.org/abs/2312.03360）、実験データのメカニズムをAIに考察させる研究（https://github.com/KanHatakeyama/LLMChem）、言語モデル自体をゼロから構築する取り組みなどが含まれる。

講演情報

[S-CG50] 機械学習による固体地球科学の牽引

[SCG50-05] 大規模言語モデルに科学関連データを学習・思考させる取り組み

★招待講演