Transformerモデルを用いた学術文献の言語情報と引用情報の融合

大知 正直

16:30 〜 16:50

[3M4-GS-4-04] Transformerモデルを用いた学術文献の言語情報と引用情報の融合

〇大知正直¹、城真範²、森純一郎¹、坂田一郎¹ (1. 東京大学、2. 産業総合研究所)

[[オンライン]]

キーワード：学術文献情報、科学研究インパクト、SciBERT、GraphBERT

2017年に発表されたTransformerモデルは当初自然言語処理分野での利用が進んだが，その後画像処理，ネットワーク等多様な分野での活用が広がっている．Transformerモデルは，大規模データを用いた学習済みモデルの公開，個別のタスクへ新しいデータを適用しファインチューニングを行える等の利点がある．学術文献には，言語，引用，図表の画像など多様なデータが含まれている．しかし，これまで各データを個別に利用，抽出した特徴量を組み合わせて分類や回帰を行った研究が主で，データ間の相互作用を十分に考慮していなかった．本稿では，学術文献のデータのうち言語情報と引用情報をTransformerモデルを用い，end2endで融合する手法を提案する．Web of Scienceから抽出したデータセットを用い，出版３年後の被引用数が上位20%となる論文の分類を行なったところ，提案手法は個別の情報だけを用いるよりもF値を2.6〜6.0ポイント改善した．本手法によって，学術文献の持つ多様なデータをend2endに融合することが可能になり，様々な分類，予測の精度向上を容易に図れる可能性を示している．

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

講演情報

[3M4-GS-4] Webインテリジェンス：モデル化

[3M4-GS-4-04] Transformerモデルを用いた学術文献の言語情報と引用情報の融合

パスワード