[4Xin2-114] 大規模言語モデルによる事前ラベリングを活用した系列ラベリングのアノテーション
キーワード:系列ラベリング、固有表現抽出、アノテーション、データセット、大規模言語モデル
固有表現抽出をはじめとする系列ラベリングタスクでは、学習データの作成に多大なアノテーションコストがかかることが課題となっている。効率化を図るために、既存モデルによるラベリング結果をアノテーションの参考にする方法があるが、公開されている系列ラベリングモデルは人名や地名、組織名などの一般的なラベルセットで構成されるものが多くを占めているため、特定ドメインでのアノテーション時には事前にラベリングすることができない。本研究では、そのような特定ドメインに対する系列ラベリングタスクにおける学習データ作成の効率化を目的として、大規模言語モデルで事前にラベリングした結果をアノテーション時の参考として用いる手法を提案する。まず取得対象の系列の定義と出力形式を指定したプロンプトを用いて、入力テキスト中の対象系列をXMLタグで囲んだ形式で大規模言語モデルに出力させる。その後出力結果を整形し、アノテーションツール上にラベルの候補として表示する。これにより、データの少ないドメインにおいても事前にラベリング結果を提示できる。このシステムを用いて、本手法によるアノテーションのコストに及ぼす影響について報告する。
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。