09:20 〜 09:40
[2O1-GS-3-02] KOGITUNE: 大規模言語モデル向けの分散データセット学習基盤
キーワード:大規模言語モデル、学習基盤
大規模言語モデルの性能は、数百GB以上の膨大なかつ高品質に前処理されたデータセットに支えられている。
この規模のデータセットを単一の組織で開発するのは難しく、複数の組織にまたがった開発を支える分散的なフレームワークが必要になる。
KOGITUNEは、分散データセットによる大規模言語モデル(LLM)の学習を支援する目的で設計された。
基本的なアイディアは、データセットの前処理からテンソル化まで外部マシンで独立的に行い、GPU側にオンデマンド配送して、学習側ではGPUの高利用率の達成を実現することである。
複数のコーパスの混成比率の調整などの実用的な機能も備わっている。
本稿では、KOGITUNEの設計と実装を述べ、KOGITUNEを用いたLLM(0.06B〜1.3B)開発の経験を報告する。
この規模のデータセットを単一の組織で開発するのは難しく、複数の組織にまたがった開発を支える分散的なフレームワークが必要になる。
KOGITUNEは、分散データセットによる大規模言語モデル(LLM)の学習を支援する目的で設計された。
基本的なアイディアは、データセットの前処理からテンソル化まで外部マシンで独立的に行い、GPU側にオンデマンド配送して、学習側ではGPUの高利用率の達成を実現することである。
複数のコーパスの混成比率の調整などの実用的な機能も備わっている。
本稿では、KOGITUNEの設計と実装を述べ、KOGITUNEを用いたLLM(0.06B〜1.3B)開発の経験を報告する。
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。