10:00 〜 10:20
[3O1-OS-16b-04] 言語モデルの世界モデル創発に関する検証
プローブを用いた寄与度に基づく枝刈りによる内部表現分析
キーワード:世界モデル、大規模言語モデル、内部表現、枝刈り、解釈可能性
近年,言語モデルにおける世界モデルの出現に関する研究が行われている.その中で,言語モデルとしてオセロの合法的な手を予測することが可能なOthelloGPTを利用した研究がある.この研究は,世界モデル発現に関して,内部表現の介入により洞察を得ている.本研究では,予測に対する寄与値を計算するSHapley Additive exPlanations (SHAP)と内部表現の介入技術,プローブを活用する. 我々は,OthelloGPTとプローブ,SHAPを活用して,現在のオセロの盤面状態に対する内部層のノードごとの寄与値を確認した.その寄与値に基づいて,ノードの枝刈りをおこなった.結果として,寄与値の高いノードから枝刈りするよりも低いノードから枝刈りしたほうが精度が高くなった.この結果は,OthelloGPTが合法一手の予測に,内部表現を活用していることを示唆している.
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。