2024年度 人工知能学会全国大会(第38回)

講演情報

ポスターセッション

ポスターセッション » ポスターセッション

[4Xin2] ポスターセッション2

2024年5月31日(金) 12:00 〜 13:40 X会場 (イベントホール1)

[4Xin2-37] 単方向・双方向事前学習済み言語モデルにおけるアーキテクチャ・事前学習方法の違いによる影響の分析

〇長尾 浩良1、五藤 巧1,2、是枝 祐太1 (1.株式会社日立製作所 研究開発グループ、2.奈良先端科学技術大学院大学)

キーワード:大規模言語モデル、自然言語処理、テキスト分類、分析、トランスフォーマー

近年,言語モデルの大規模化が加速し,これまでは個別の開発が必要であった広範な言語処理タスクを単一モデルで扱えるようになった.
GPTなどの単方向事前学習済み言語モデルはパラメータ数数十億から数百億規模の超大規模化が進んでいるが,BERTなどの双方向事前学習済み言語モデルではパラメータ数は高々数億程度にとどまる.
しかし,古典的なタスクにおいては,比較的小さなパラメータ数の双方向事前学習済み言語モデルの方が有用であることが示唆されている.
本研究の目的は,モデルアーキテクチャと事前学習方法のいずれによってその差異がもたらされるかを明らかにすることである.
本研究では,統制された条件下で双方向・単方向の事前学習済み言語モデルを学習し,事前学習前に比べ事前学習後の下流タスクの性能 (GLUEスコア) の差が広がることを確認した.
事前学習前における両モデルの差異はアーキテクチャのみであるため,事前学習方法による影響はアーキテクチャの影響よりも支配的であることが示唆された.

要旨・抄録、PDFの閲覧には参加者用アカウントでのログインが必要です。参加者ログイン後に閲覧・ダウンロードできます。
» 参加者用ログイン