17:20 〜 17:40
[1B5-GS-2-02] SGDの陰的正則化効果の陽的なモデリング
キーワード:深層学習、最適化、分散並列学習
深層学習モデルとデータセットの増大により分散並列学習が必要になっている。データ並列化は各GPUがモデルを冗長に持ち、バッチを分散させる最も容易に実装できる分散学習手法である。しかし、GPU数が増えるとバッチサイズもそれに比例して増大しSGDのもつ陰的正則化効果が失われることで汎化性能が低下する。本研究では、勾配のノルムによる正則化を行うことでこのラージバッチ問題を緩和することを目指す。
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。