日本語固有表現抽出のためのLLMを用いたデータ拡張

岡崎 ひかり; 須藤 克仁

[1Win4-41] 日本語固有表現抽出のためのLLMを用いたデータ拡張

〇岡崎ひかり¹、須藤克仁¹ (1.奈良女子大学)

キーワード：大規模言語モデル

固有表現抽出の精度を向上させることは文章の要約や情報検索などのテキストを扱うツールの改良に役立つが、日本語の固有表現抽出精度は英語のものと比較すると一般に精度が劣る傾向にある。本研究では日本語の固有表現抽出の精度を向上させるため、大規模言語モデル(LLM)を利用したデータ拡張を行った。LLMによって元データの固有表現を同じ種類の異なる固有表現に置換したデータを生成し、生成されたデータの一部あるいは全部を元データと組み合わせた拡張データを作成する。このデータを用いて固有表現抽出を実行し、評価を行った。結果として、固有表現クラスによってはデータ拡張の効果の差が認められた。

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

講演情報

[1Win4] ポスターセッション1

[1Win4-41] 日本語固有表現抽出のためのLLMを用いたデータ拡張

パスワード