2025年度 人工知能学会全国大会(第39回)

講演情報

オーガナイズドセッション

オーガナイズドセッション » OS-32 Mechanistic Interpretability

[3L6-OS-32] Mechanistic Interpretability

2025年5月29日(木) 17:40 〜 19:20 L会場 (会議室1007)

オーガナイザ:高槻 瞭大(AIアライメントネットワーク/東京大学),峰岸 剛基(東京大学),宮西 洋輔(サイバーエージェント/北陸先端科学技術大学院大学),高木 優(国立情報学研究所)

18:00 〜 18:20

[3L6-OS-32-02] 文脈内学習による多段階回路の形成

〇峰岸 剛基1、古田 拓毅1、谷口 尚平1、岩澤 有祐1、松尾 豊1 (1. 東京大学)

キーワード:文脈内学習、回路

LLMは,文脈に基づいて適応的に予測を行う 文脈内学習を示す.先行研究では,インダクションヘッドという内部回路が文脈内学習と関連づけられてきたが,これは文脈の中に答えが含まれているコピータスクでのみ分析されてきた.しかし,実際のLLMにおける重要な文脈内学習の特性は,文脈から答えを単にコピーするのではなく,タスクの解き方自体をメタ学習できる点であり,この能力がどのように訓練中に獲得されるかは十分に解明されていない.本論文では,モデル内部の回路を解析することで,メタ学習能力がどのように形成されるかを実験的に明らかにする.具体的には,文脈からタスクを推定してクエリに応答しなければならない文脈内メタ学習の設定を導入する.興味深いことに,この設定下では学習過程が複数のフェーズに分かれ,各フェーズごとに固有の回路が出現することがわかった.これはインダクションヘッドで見られた単一フェーズの変化とは異なる.さらに,こうした回路の出現は,大規模言語モデルで観察されるいくつかの現象と関連しており,本研究の分析はトランスフォーマーの 文脈内学習能力の根源をより深く理解するための手がかりとなる.

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

パスワード