1:40 PM - 3:20 PM
[2A4-TS-2-01] 深層基盤モデルの数理
本講演では,深層基盤モデルの学習能力を理論的に理解するための数理を解説する.深層基盤モデルの開発はスケーリング則に従った大規模化によって進められている一方で,スケーリング則の背後にある学習原理の理論的理解への重要性も増している.生物は変化する環境に適応して適切な行動を選択する必要があることから,生物の知能にとって汎化能力は本質的に重要である.優れた汎化能力を獲得するためには,丸暗記ではない無駄を省いた圧縮された表現を得る必要があり,その意味で表現学習・特徴学習は本質的である.深層学習は深層構造から自然に特徴学習を実現し,それによって汎化に関する様々なアドバンテージを得ることが理論的に示される.このことは,拡散モデルやTransformerにおいて特に重要である.一方で,適切な特徴量が確率的勾配降下法によって獲得できるかは損失関数の非凸性より非自明であるが,その理論保証についても解説する.さらに,特徴学習は,事前学習だけでなくテスト時推論においても重要な意味を持つ.そのことを文脈内学習を例にとって端的に示し,さらにテスト時推論の理論として思考連鎖や強化学習によって学習の効率が上がる原理を紹介する.
Authentication for paper PDF access
A password is required to view paper PDFs. If you are a registered participant, please log on the site from Participant Log In.
You could view the PDF with entering the PDF viewing password bellow.