[4Xin2-06] J-NER:大規模言語モデルのための固有表現認識における拡張固有表現階層を考慮したベンチマークデータセット
キーワード:大規模言語モデル、固有表現認識、ベンチマーク、データセット
言語モデルが文章の構造や繋がりを認識できているかどうかを確かめることは、言語モデルを理解するにあたって重要な観点である。地名、人名などの固有表現は言語の主要な構成要素のひとつであり、言語モデルの理解にあたって、言語モデルにおける固有表現の認識に関する研究は重要なテーマである。大規模言語モデルでも同様に固有表現認識は重要であるが、一般の言語モデルと比べて固有表現認識のためのデータセットの整備などで研究の余地がある。
そこで本研究では、大規模言語モデルの学習データの固有表現かつ拡張固有表現階層の固有表現を含む新しいベンチマークデータセット「J-NER」を作成した。このデータセットを用いて、大規模言語モデルのGemini ProやGPT-3.5、ELYZAなどで評価したところ、正解率やF1スコアにバラつきが見られた。このことは、J-NERが大規模言語モデルの固有表現認識力を測定するのに有効であることを示唆する。J-NERを用いた評価を通じて、大規模言語モデルの固有表現認識能力に関する深い洞察が得られることが期待される。
そこで本研究では、大規模言語モデルの学習データの固有表現かつ拡張固有表現階層の固有表現を含む新しいベンチマークデータセット「J-NER」を作成した。このデータセットを用いて、大規模言語モデルのGemini ProやGPT-3.5、ELYZAなどで評価したところ、正解率やF1スコアにバラつきが見られた。このことは、J-NERが大規模言語モデルの固有表現認識力を測定するのに有効であることを示唆する。J-NERを用いた評価を通じて、大規模言語モデルの固有表現認識能力に関する深い洞察が得られることが期待される。
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。