Rectifying Belief Space via Unlearning to Harness LLMs' Reasoning

Ayana Niwa; Masahiro Kaneko; Inui Kentaro

[2Win5-50] Rectifying Belief Space via Unlearning to Harness LLMs' Reasoning

〇Ayana Niwa¹, Masahiro Kaneko¹, Inui Kentaro^1,2,3 (1.MBZUAI, 2.Tohoku University, 3.RIKEN)

Keywords:Large Language Models, Interpretability

大規模言語モデル（LLM）は高度な推論能力を示す一方、しばしば誤った回答を出力することが知られている。
本研究では、この誤推論がモデル内部に存在する偽信念（Spurious Beliefs）に起因するという仮説を提示する。
そして、モデルが推論時に使う信念の中で、正しい答えにつながる「真の信念」が優先的に参照されるように調整し、推論能力を向上させる手法を提案する。
具体的には、まず誤答と正答を導く際に参照される偽信念と真の信念を特定する。
次に、逆学習によってモデルの偽信念への参照を抑制し、真の信念を優先的に参照させるようモデル内部の信念空間を是正する。
QAタスクにおける実験では、提案手法が誤推論を抑制するとともに汎化性能を向上させることを示した。

Authentication for paper PDF access
A password is required to view paper PDFs. If you are a registered participant, please log on the site from Participant Log In.
You could view the PDF with entering the PDF viewing password bellow.

Presentation information

[2Win5] Poster session 2

[2Win5-50] Rectifying Belief Space via Unlearning to Harness LLMs' Reasoning

Password