∞-MoE: 混合エキスパートモデルにおける無限のエキスパートへの一般化

髙城 頌太

18:40 〜 19:00

[3S6-GS-2-04] ∞-MoE: 混合エキスパートモデルにおける無限のエキスパートへの一般化

〇髙城頌太¹、小島武¹、谷口尚平¹、岩澤有祐¹、松尾豊¹ (1. 東京大学)

キーワード：大規模言語モデル、Mixture of Experts、Pruning

本研究では，Mixture of Experts（MoE）を包括的に拡張し，離散から連続まであらゆる数のエキスパートを統合的に扱う新たなフレームワークとして，Infinite Mixture of Experts（∞-MoE）を提案する．従来のMoEは，離散的に定められた複数のエキスパートを組み合わせることで高い表現能力を示してきたが，エキスパートの数や構造に制約があるため，タスクによっては十分な柔軟性を発揮できなかった．そこで∞-MoEでは，ルーティング関数を連続的な確率分布として定義し，連続的な無限個のエキスパートを表現できるようにすることで，より豊かな表現力を獲得することが可能となった．実験では，GPT-2 Small/Mediumをベースとするモデルにおいて，DenseやSwitch Transformer, MoEを上回る性能を示した．
今後は，より大規模なベースモデルや学習データ量での実験や，ビジョンタスクやマルチモーダルタスクへの展開を検討する．

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

講演情報

[3S6-GS-2] 機械学習：

[3S6-GS-2-04] ∞-MoE: 混合エキスパートモデルにおける無限のエキスパートへの一般化

パスワード