[3Win5-41] 医学論文を対象とした日本語逐次文分類データセットの構築と性能評価
キーワード:逐次文分類、文分類、自然言語処理、学術文書処理
論文抄録の逐次文分類(SSC)は,情報検索や抽出要約の基盤技術として注目されている.しかし,先行研究では,英語の抄録のみを用いて学習データセットを構築しており,日本語の論文の抄録にSSCを適用することは困難であった.そこで我々は,日本語の医学論文の抄録からなる新しいSSCデータセットを作成した.このデータセットを用いて,階層的双方向LSTMベースのアーキテクチャを訓練させた.さらに,既存の英語データセットを利用する方法として,大規模言語モデルによるデータ拡張や,英語と日本語のデータを直接学習に利用する方法を提案した.さらに,論文特有の表現の認識を強化する手法を導入した.その結果,日本語論文を対象としたSSCにおいて,約92%の精度,約88%のmacro-F1スコアを達成した.
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。