2025年度 人工知能学会全国大会(第39回)

講演情報

ポスターセッション

ポスターセッション » ポスターセッション

[3Win5] ポスターセッション3

2025年5月29日(木) 15:30 〜 17:30 W会場 (イベントホールD-E)

[3Win5-41] 医学論文を対象とした日本語逐次文分類データセットの構築と性能評価

〇山内 一礼1、桂井 麻里衣1 (1.同志社大学)

キーワード:逐次文分類、文分類、自然言語処理、学術文書処理

論文抄録の逐次文分類(SSC)は,情報検索や抽出要約の基盤技術として注目されている.しかし,先行研究では,英語の抄録のみを用いて学習データセットを構築しており,日本語の論文の抄録にSSCを適用することは困難であった.そこで我々は,日本語の医学論文の抄録からなる新しいSSCデータセットを作成した.このデータセットを用いて,階層的双方向LSTMベースのアーキテクチャを訓練させた.さらに,既存の英語データセットを利用する方法として,大規模言語モデルによるデータ拡張や,英語と日本語のデータを直接学習に利用する方法を提案した.さらに,論文特有の表現の認識を強化する手法を導入した.その結果,日本語論文を対象としたSSCにおいて,約92%の精度,約88%のmacro-F1スコアを達成した.

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

パスワード