2025年度 人工知能学会全国大会(第39回)

講演情報

オーガナイズドセッション

オーガナイズドセッション » OS-32 Mechanistic Interpretability

[3L6-OS-32] Mechanistic Interpretability

2025年5月29日(木) 17:40 〜 19:20 L会場 (会議室1007)

オーガナイザ:高槻 瞭大(AIアライメントネットワーク/東京大学),峰岸 剛基(東京大学),宮西 洋輔(サイバーエージェント/北陸先端科学技術大学院大学),高木 優(国立情報学研究所)

17:40 〜 18:00

[3L6-OS-32-01] Mechanistic Interpretability:解釈可能性研究の新たな潮流

〇青木 洸士郎1、高槻 瞭大2,3、峰岸 剛基3 (1. 早稲田大学、2. 一般社団法人AIアライメントネットワーク、3. 東京大学)

キーワード:機械論的解釈可能性、解釈可能性、説明可能性、AIアライメント

Mechanistic Interpretability (MI) は,AIシステム,特にディープニューラルネットワークの内部メカニズムを解明することを目的とする新興分野である.MIは,入出力関係だけでなく,モデル内部の因果構造を特定することを目指す.特に大規模言語モデルの発展に伴い,AIの安全性や信頼性の観点からMIへの注目が高まっている.しかし,この分野の急速な発展によって,各研究者が独自の概念や手法を用いており,統一的な枠組みが不足している.さらに,「Mechanistic」という用語の定義は曖昧であり,既存の解釈可能性の手法との違いも十分に明確化されていないのが現状である.本論文では,MIの歴史的・文化的背景を概観し,MIと既存の解釈可能性の違いを明確にしながら,その概念的枠組みを整理する.また,観察的手法から介入的手法まで,MIの手法とその限界について論じる.最後に,現在のMI研究の課題について議論し,複雑化するAIシステムの理解と安全性確保のための今後の方向性を提供する.

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

パスワード