2025年度 人工知能学会全国大会(第39回)

講演情報

オーガナイズドセッション

オーガナイズドセッション » OS-32 Mechanistic Interpretability

[3L6-OS-32] Mechanistic Interpretability

2025年5月29日(木) 17:40 〜 19:20 L会場 (会議室1007)

オーガナイザ:高槻 瞭大(AIアライメントネットワーク/東京大学),峰岸 剛基(東京大学),宮西 洋輔(サイバーエージェント/北陸先端科学技術大学院大学),高木 優(国立情報学研究所)

19:00 〜 19:20

[3L6-OS-32-05] スパースオートエンコーダを用いた多言語大規模言語モデルにおけるジェンダーバイアスの調査

〇阿部 桃大1、韓 南琦1、宮尾 祐介1 (1. 東京大学)

キーワード:スパースオートエンコーダ、ジェンダーバイアス、大規模言語モデル、機械論的解釈可能性

本研究の目的は、ジェンダーバイアスが多言語大規模言語モデル(多言語LLM)において英語と日本語に対しどのように組み込まれているかを調査することである。
LLMが学習する言語に応じてジェンダーバイアスの現れ方も異なると予想されるが、多言語LLMにおいて各言語に対しジェンダーバイアスがどのように学習され、数値化されるのかは明らかになっていない。
本研究では多言語LLMにスパースオートエンコーダ(SAE)を用いて、英語と日本語のジェンダーバイアスに対応する特徴量を抽出し、言語間でそれらが同一なのかを調査する。
具体的には、ジェンダーバイアスの観点でステレオタイプ的な文と反ステレオタイプ的な文を多言語LLMに与え、SAEを用いてLLMの中間層のニューロンの発火を解釈可能性の高い特徴量の発火に変換した。
そして、変換した特徴量の中で2種類の文で異なる活性化のパターンを示すものを探索して各言語での特徴量の発火を比較した。
実験の結果から、多言語LLM内部においてジェンダーバイアスは言語に応じて異なる形で表現されていることが示唆された。

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

パスワード