[4Xin2-37] 単方向・双方向事前学習済み言語モデルにおけるアーキテクチャ・事前学習方法の違いによる影響の分析
キーワード:大規模言語モデル、自然言語処理、テキスト分類、分析、トランスフォーマー
近年,言語モデルの大規模化が加速し,これまでは個別の開発が必要であった広範な言語処理タスクを単一モデルで扱えるようになった.
GPTなどの単方向事前学習済み言語モデルはパラメータ数数十億から数百億規模の超大規模化が進んでいるが,BERTなどの双方向事前学習済み言語モデルではパラメータ数は高々数億程度にとどまる.
しかし,古典的なタスクにおいては,比較的小さなパラメータ数の双方向事前学習済み言語モデルの方が有用であることが示唆されている.
本研究の目的は,モデルアーキテクチャと事前学習方法のいずれによってその差異がもたらされるかを明らかにすることである.
本研究では,統制された条件下で双方向・単方向の事前学習済み言語モデルを学習し,事前学習前に比べ事前学習後の下流タスクの性能 (GLUEスコア) の差が広がることを確認した.
事前学習前における両モデルの差異はアーキテクチャのみであるため,事前学習方法による影響はアーキテクチャの影響よりも支配的であることが示唆された.
GPTなどの単方向事前学習済み言語モデルはパラメータ数数十億から数百億規模の超大規模化が進んでいるが,BERTなどの双方向事前学習済み言語モデルではパラメータ数は高々数億程度にとどまる.
しかし,古典的なタスクにおいては,比較的小さなパラメータ数の双方向事前学習済み言語モデルの方が有用であることが示唆されている.
本研究の目的は,モデルアーキテクチャと事前学習方法のいずれによってその差異がもたらされるかを明らかにすることである.
本研究では,統制された条件下で双方向・単方向の事前学習済み言語モデルを学習し,事前学習前に比べ事前学習後の下流タスクの性能 (GLUEスコア) の差が広がることを確認した.
事前学習前における両モデルの差異はアーキテクチャのみであるため,事前学習方法による影響はアーキテクチャの影響よりも支配的であることが示唆された.
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。