2023年度 人工知能学会全国大会(第37回)

講演情報

一般セッション

一般セッション » GS-3 知識の利用と共有

[2D6-GS-3] 知識の利用と共有:言語

2023年6月7日(水) 17:30 〜 19:10 D会場 (大会議室 A1)

座長:矢野 太郎(NEC) [現地]

18:30 〜 18:50

[2D6-GS-3-04] 日本語BERTにおけるトークナイザの違いによる影響の検証

〇伊藤 俊太朗1、河原 大輔1 (1. 早稲田大学)

キーワード:自然言語処理

日本語の様々な言語処理タスクにおいて、事前学習済みの日本語BERTをファインチューニングすることによって高い精度が得られている。日本語BERTの入力テキストは単語やサブワードにトークナイズする必要があるが、単語辞書やサブワード化手法には様々なものが存在する。本研究では、トークナイザが異なる日本語BERTモデルを作成し、事前学習タスクであるマスク言語モデルおよび下流タスクへの影響について検証する。トークナイザの違いによりマスク言語モデルや下流タスクに精度差が生じ、必ずしもマスク言語モデルと下流タスクの性能は依存するわけではないことが明らかとなった。

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

パスワード