医学論文を対象とした日本語逐次文分類データセットの構築と性能評価

山内 一礼; 桂井 麻里衣

[3Win5-41] 医学論文を対象とした日本語逐次文分類データセットの構築と性能評価

〇山内一礼¹、桂井麻里衣¹ (1.同志社大学)

キーワード：逐次文分類、文分類、自然言語処理、学術文書処理

論文抄録の逐次文分類(SSC)は，情報検索や抽出要約の基盤技術として注目されている．しかし，先行研究では，英語の抄録のみを用いて学習データセットを構築しており，日本語の論文の抄録にSSCを適用することは困難であった．そこで我々は，日本語の医学論文の抄録からなる新しいSSCデータセットを作成した．このデータセットを用いて，階層的双方向LSTMベースのアーキテクチャを訓練させた．さらに，既存の英語データセットを利用する方法として，大規模言語モデルによるデータ拡張や，英語と日本語のデータを直接学習に利用する方法を提案した．さらに，論文特有の表現の認識を強化する手法を導入した．その結果，日本語論文を対象としたSSCにおいて，約92%の精度，約88%のmacro-F1スコアを達成した．

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

講演情報

[3Win5] ポスターセッション3

[3Win5-41] 医学論文を対象とした日本語逐次文分類データセットの構築と性能評価

パスワード