18:40 〜 19:00
[3S6-GS-2-04] ∞-MoE: 混合エキスパートモデルにおける無限のエキスパートへの一般化
キーワード:大規模言語モデル、Mixture of Experts、Pruning
本研究では,Mixture of Experts(MoE)を包括的に拡張し,離散から連続まであらゆる数のエキスパートを統合的に扱う新たなフレームワークとして,Infinite Mixture of Experts(∞-MoE)を提案する.従来のMoEは,離散的に定められた複数のエキスパートを組み合わせることで高い表現能力を示してきたが,エキスパートの数や構造に制約があるため,タスクによっては十分な柔軟性を発揮できなかった.そこで∞-MoEでは,ルーティング関数を連続的な確率分布として定義し,連続的な無限個のエキスパートを表現できるようにすることで,より豊かな表現力を獲得することが可能となった.実験では,GPT-2 Small/Mediumをベースとするモデルにおいて,DenseやSwitch Transformer, MoEを上回る性能を示した.
今後は,より大規模なベースモデルや学習データ量での実験や,ビジョンタスクやマルチモーダルタスクへの展開を検討する.
今後は,より大規模なベースモデルや学習データ量での実験や,ビジョンタスクやマルチモーダルタスクへの展開を検討する.
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。