大規模言語モデルのモデルマージにおける少量データに基づいたタスクベクトルの重み係数の学習

鄭 晟徹

09:20 〜 09:40

[3G1-GS-6-02] 大規模言語モデルのモデルマージにおける少量データに基づいたタスクベクトルの重み係数の学習

〇鄭晟徹¹、鈴木雅大¹、松尾豊¹ (1. 東京大学)

キーワード：モデルマージ、タスクベクトル、重み係数最適化

本研究では、LLM-AdaMergeを提案する。これは、複数の特化型大規模言語モデル（LLM）を効率的に統合するためにAdaMergingを拡張した手法である。既存のLLM統合手法は計算コストの観点から学習データの使用を避ける傾向にあり、これによりタスク間の相互作用が最適化されていなかった。我々のアプローチでは、効率的な計算オーバーヘッドで、データ駆動型の最適化を可能にした。タスク固有のパラメータ差分を組み合わせるための重み係数を直接最適化する言語モデリング損失関数を導入した。効果的な学習にはタスクあたりわずか4サンプルしか必要としない。3つの特化型Mistral-7Bベースモデル（数学、コード生成、日本語）を用いた実験では、ベースラインと比較して平均精度が最大12.95ポイント向上することを実証した。結果は、非データ駆動型手法やベイズ最適化アプローチと比較して、重みのみの更新による計算効率を維持しながら、優れた性能を示している。我々の手法は、複数の特化型LLMを組み合わせるための実用的なソリューションを提供するが、より多くのタスクへのスケーリングには依然として課題が残る。

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

講演情報

[3G1-GS-6] 言語メディア処理：

[3G1-GS-6-02] 大規模言語モデルのモデルマージにおける少量データに基づいたタスクベクトルの重み係数の学習

パスワード