KOGITUNE: 大規模言語モデル向けの分散データセット学習基盤

相馬 菜生

09:20 〜 09:40

[2O1-GS-3-02] KOGITUNE: 大規模言語モデル向けの分散データセット学習基盤

〇相馬菜生¹、小原百々雅¹、倉光君郎¹、片桐孝洋²、横手靖彦³、石川裕⁴ (1. 日本女子大学、2. 名古屋大学、3. 理化学研究所、4. 国立情報学研究所)

キーワード：大規模言語モデル、学習基盤

大規模言語モデルの性能は、数百GB以上の膨大なかつ高品質に前処理されたデータセットに支えられている。
この規模のデータセットを単一の組織で開発するのは難しく、複数の組織にまたがった開発を支える分散的なフレームワークが必要になる。
KOGITUNEは、分散データセットによる大規模言語モデル（LLM）の学習を支援する目的で設計された。
基本的なアイディアは、データセットの前処理からテンソル化まで外部マシンで独立的に行い、GPU側にオンデマンド配送して、学習側ではGPUの高利用率の達成を実現することである。
複数のコーパスの混成比率の調整などの実用的な機能も備わっている。
本稿では、KOGITUNEの設計と実装を述べ、KOGITUNEを用いたLLM(0.06B〜1.3B)開発の経験を報告する。

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

講演情報

[2O1-GS-3] 知識の利用と共有：

[2O1-GS-3-02] KOGITUNE: 大規模言語モデル向けの分散データセット学習基盤

パスワード