[3Xin2-11] 異なる語彙とトークナイザを用いた言語モデルの事前学習と医療ドメインへの適用
キーワード:トークナイザ、電子カルテ、事前学習、言語モデル
本研究では,トークナイザの分割方法と語彙サイズの違いが言語モデルBERTに与える影響を調査した. サブワードに基づいたトークナイザは,WordPieceなど形態素解析器の形態素境界を超えないものと,SentencePieceなど意味的境界を考えないものがある.医療などの専門用語や複合語が出現するドメインでは,意味的な単語境界を保持したほうが良い可能性がある. そこで単語単位でトークン化を行うトークナイザとサブワードに基づいてトークン化を行うトークナイザについて,語彙数を変えた場合のトークナイザの学習とBERTモデルの事前学習を行った.そして,JGLUE,Wikipedia固有表現抽出,医療固有表現抽出の3つのタスクでファインチューニングの評価を行い,性能を比較した.また,複合語や専門用語が頻出する医療に特化したモデルについても同様に比較を行い,トークナイザの与える影響を評価した.その結果,医療分野の固有表現抽出においては,医療分野の専門辞書を用いて語彙サイズを増やした場合,サブワードを用いるベースラインよりも性能が上回る事前学習モデルを構築することができた.
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。