[3Win5-83] Mechanistic Interpretabilityへの外部因果の導入
キーワード:因果論、解釈性、統合勾配
Mechanistic Interpretability (MI)は言語モデルの因果的な解釈を目的とする。典型的なMIの研究では、構成要素の不活性化による特定の概念を表現する回路の探索や、ホワイトボックスなアルゴリズムで活動を置換することによる言語モデル内部表現の模倣を行う。これらのアプローチは言語モデルの内部表現(内部因果)に対して価値ある洞察を提供するが、言語モデルが取り組む問題による因果(内部因果)の影響を考慮していない。この二つの因果について理解するために、本研究では外部因果が内部因果に与える因果効果を定式化する。次に、著者らの以前の発見(憎悪ミーム検知を行う三つのTransformerモデルにおける画像・テキスト間の相互作用に事前学習が与えるバイアス)をこの定式化表現によって再評価する。結果として、このフレームワークでは事前学習バイアスがこの問題全体の因果関係と、注意行列の一部のみがモデル出力に影響を与えると仮定した場合の因果関係とを定量的に表現できることが明らかとなった。以上のように、本研究ではMIに必要な追加要素=外界との相互作用に関する最初の知見を提供した。
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。