15:40 〜 16:00
[1B4-GS-2-03] 宝くじ仮説の観点からの Grokking の理解
キーワード:Grokking、汎化、宝くじ仮説、表現学習
Grokking とは,ニューラルネットワークが初め訓練精度が100%でテスト精度が低い暗記解に達し,その後訓練を続けるとテスト精度が急上昇し100%になる汎化解に到達するという興味深い現象である。本研究では、重みノルムの減少がgrokkingの急激なテスト精度の向上に対応するという従来の考えをさらに深く分析し,最適なサブネットワークの発見が汎化を達成する上で重要な役割を果たしていることを実験を通じて示す。我々は宝くじ仮説の概念を導入し,「宝くじ」を見つけることが暗記解から汎化解への移行に重要であることを主張する。我々の研究では、(1)適切なサブネットワークを使用すると、訓練精度の向上に遅延してテスト精度が向上する現象は発生しない、(2)等しい重みノルムであっても、密なネットワークは完全な汎化を到達するためにかなり長い訓練が必要である、(3)重みの値を更新せず構造の最適化のみで、暗記解から汎化解への移行が可能であるということを示す。これらの結果は、grokkingのメカニズムを理解する上で、従来の重みノルムの減少という説明よりもサブネットワークの発見の方が重要であることを示唆している。
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。