[4Rin1-23] マスク化言語モデルと系列長に関する分析
キーワード:自然言語処理、機械学習
マスク化言語モデルBERTは様々なタスクに転移学習することで高性能を発揮しているが,入力系列長に制限があり,長い文章を一度に扱えないという問題がある.長い文章を扱うためには最大系列長を伸ばした上で事前学習すれば良いが,系列長が増えるほど計算コストが増大する問題や,BERTの基本的要素であるattentionは近傍トークンや特殊トークンを重視する割合が高いという報告もあり,単純に最大系列長を伸ばして学習するだけでは長い文章の言語理解能力が向上しない可能性がある.本稿では,一つの単語または一つの固有表現ごとにマスクした系列を入力し,系列長が長いときと短いときの単語穴埋めタスクの精度を比較することで,マスク化言語モデルにおいて入力系列長が与える影響について調査した.結果として,固有名詞や人名の固有表現は他の品詞・固有表現クラスに比べ長期文脈を必要とした.
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。