言語モデルの世界モデル創発に関する検証

西浦 直哉

10:00 〜 10:20

[3O1-OS-16b-04] 言語モデルの世界モデル創発に関する検証

プローブを用いた寄与度に基づく枝刈りによる内部表現分析

〇西浦直哉¹、青木洸士郎²、武田大佑³、熊谷亘⁴、松尾豊⁴ (1. 奈良先端科学技術大学院大学、2. 早稲田大学、3. 東京大学、4. 東京大学大学院工学系研究科)

キーワード：世界モデル、大規模言語モデル、内部表現、枝刈り、解釈可能性

近年，言語モデルにおける世界モデルの出現に関する研究が行われている．その中で，言語モデルとしてオセロの合法的な手を予測することが可能なOthelloGPTを利用した研究がある．この研究は，世界モデル発現に関して，内部表現の介入により洞察を得ている．本研究では，予測に対する寄与値を計算するSHapley Additive exPlanations (SHAP)と内部表現の介入技術，プローブを活用する．我々は，OthelloGPTとプローブ，SHAPを活用して，現在のオセロの盤面状態に対する内部層のノードごとの寄与値を確認した．その寄与値に基づいて，ノードの枝刈りをおこなった．結果として，寄与値の高いノードから枝刈りするよりも低いノードから枝刈りしたほうが精度が高くなった．この結果は，OthelloGPTが合法一手の予測に，内部表現を活用していることを示唆している．

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

講演情報

[3O1-OS-16b] 世界モデルと知能

[3O1-OS-16b-04] 言語モデルの世界モデル創発に関する検証

プローブを用いた寄与度に基づく枝刈りによる内部表現分析

パスワード