17:40 〜 18:00
[3L6-OS-32-01] Mechanistic Interpretability:解釈可能性研究の新たな潮流
キーワード:機械論的解釈可能性、解釈可能性、説明可能性、AIアライメント
Mechanistic Interpretability (MI) は,AIシステム,特にディープニューラルネットワークの内部メカニズムを解明することを目的とする新興分野である.MIは,入出力関係だけでなく,モデル内部の因果構造を特定することを目指す.特に大規模言語モデルの発展に伴い,AIの安全性や信頼性の観点からMIへの注目が高まっている.しかし,この分野の急速な発展によって,各研究者が独自の概念や手法を用いており,統一的な枠組みが不足している.さらに,「Mechanistic」という用語の定義は曖昧であり,既存の解釈可能性の手法との違いも十分に明確化されていないのが現状である.本論文では,MIの歴史的・文化的背景を概観し,MIと既存の解釈可能性の違いを明確にしながら,その概念的枠組みを整理する.また,観察的手法から介入的手法まで,MIの手法とその限界について論じる.最後に,現在のMI研究の課題について議論し,複雑化するAIシステムの理解と安全性確保のための今後の方向性を提供する.
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。