[4Yin2-16] 勾配法による蒸留における教師モデル選別
キーワード:知識蒸留
深層学習において,大規模なモデルの推論時の高い計算コストや長い推論時間はそのモデルを実用する上での大きな課題である.大規模な教師モデルの出力をより小規模な生徒モデルに模倣させることでモデルの性能維持と軽量化を実現するモデルの圧縮手法として知識蒸留がある.しかし知識蒸留の効果はモデル規模やモデル構造などの多くの要因から影響を受けるため,複数の教師モデルの候補のなかから生徒モデルの性能を最大化する教師モデルを定量的に判別することは困難である.特に教師モデルと生徒モデルの性能差は蒸留の効果に大きな影響を与えるとされているが,生徒モデルの性能は学習過程で変化するため,生徒モデルの性能を最大化する教師モデルも蒸留の過程で変化する.そこで本稿では,生徒モデルが参照する教師モデルを蒸留の過程で変化させる手法を提案する.複数の教師モデル候補に対し,各々に重みパラメータを割り振り,その重みを勾配法で最適化しながら知識蒸留を行う.評価実験ではCIFAR10の画像分類タスクにおいて提案手法で蒸留された生徒モデルの精度が従来手法を上回ることを示した.
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。