18:30 〜 18:50
[2D6-GS-3-04] 日本語BERTにおけるトークナイザの違いによる影響の検証
キーワード:自然言語処理
日本語の様々な言語処理タスクにおいて、事前学習済みの日本語BERTをファインチューニングすることによって高い精度が得られている。日本語BERTの入力テキストは単語やサブワードにトークナイズする必要があるが、単語辞書やサブワード化手法には様々なものが存在する。本研究では、トークナイザが異なる日本語BERTモデルを作成し、事前学習タスクであるマスク言語モデルおよび下流タスクへの影響について検証する。トークナイザの違いによりマスク言語モデルや下流タスクに精度差が生じ、必ずしもマスク言語モデルと下流タスクの性能は依存するわけではないことが明らかとなった。
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。