医療領域における日本語マルチラベル文書分類のためのChatGPTベースの適応的データ拡張

坪田 匡史

18:10 〜 18:30

[2G6-GS-6-03] 医療領域における日本語マルチラベル文書分類のためのChatGPTベースの適応的データ拡張

〇坪田匡史¹ (1. 武田薬品工業株式会社)

キーワード：自然言語処理、データ拡張、ChatGPT

マルチラベルテキスト分類は医療領域における一般的なタスクの一つである。他方、分類モデルの訓練データを手動で構築するためには、広範な医学関連知識が求められるケースが多く、その構築には大きな労力を要する。この課題を解決するため、本研究では、ChatGPTを活用した適応的な自動データ拡張手法を提案する。この手法では、手動で作成されたオリジナルの訓練データ（NTCIR-13 MedWeb日本語コーパス）に基づいて、新しい訓練データを生成する。また、生成された訓練データのコンフィデンスを、オリジナルの訓練データでファインチューニングしたベースラインBERTモデルを使用して推定し、コンフィデンスの低いデータを除外する。このように作成された拡張データを、オリジナルの訓練データと組み合わせてBERTモデルのファインチューニングに用いた結果、ベースラインモデルと比較してF1スコアが2.4%改善した。提案手法は、医療領域におけるマルチラベルテキスト分類問題のより効率的な解決に資することが期待される。

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

講演情報

[2G6-GS-6] 言語メディア処理：

[2G6-GS-6-03] 医療領域における日本語マルチラベル文書分類のためのChatGPTベースの適応的データ拡張

パスワード