14:50 〜 15:10
[2E4-GS-6-05] 事前学習済み言語モデル中の多段階推論に関与するニューロンに関する分析
キーワード:言語モデル、思考連鎖、多段階推論
事前学習済み言語モデルの性能を引き出す方法としてプロンプトが注目されており,その1つが思考連鎖プロンプトが存在する.思考連鎖プロンプトは,最終的な答えを導き出すために,途中の考えを明示的に表現することを促すプロンプトであり,モデルの多段階の推論能力を改善することが知られている.一方で,モデルが思考連鎖プロンプトからどのような影響を受け,多段階推論を可能になるのかについては,未だ不明な点が多い.
本研究では,言語モデル中のニューロンの活性化によりタスクの性能を解釈する既存研究を背景として,モデル中のニューロンが多段階推論のタスクにおいて内部的にどのような影響を及ぼされているかを検証した.その結果,多段階推論において,複数の思考連鎖プロンプトで共通して活性化するニューロンが存在することが明らかになった.また,これらのニューロンをの活性化を抑制することで,推論パフォーマンスが悪化することがわかった.この結果はモデルの推論能力の獲得のメカニズムに示唆を与える.
本研究では,言語モデル中のニューロンの活性化によりタスクの性能を解釈する既存研究を背景として,モデル中のニューロンが多段階推論のタスクにおいて内部的にどのような影響を及ぼされているかを検証した.その結果,多段階推論において,複数の思考連鎖プロンプトで共通して活性化するニューロンが存在することが明らかになった.また,これらのニューロンをの活性化を抑制することで,推論パフォーマンスが悪化することがわかった.この結果はモデルの推論能力の獲得のメカニズムに示唆を与える.
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。