2:40 PM - 3:00 PM
[2H4-GS-11-04] A Study on Mitigating Bias Across Multiple Attributes Using Unlearning
Keywords:Large Language Model, Unlearning, Bias
大規模言語モデル(LLM)の学習では,訓練データのバイアス継承によりステレオタイプが助長される点が問題視されている.既存研究では,人間の評価結果に基づいたデータ削除やアンラーニングによる特定の一属性のバイアス軽減が行われているが,データ削除によるLLMの性能低下や特定の一属性の忘却が他の属性のバイアスを増幅させるという課題がある.そこで本研究では,アンラーニングにより性別,職業,宗教,人種の4属性のバイアスを誘発する知識をまとめて忘却させた.また,忘却後のLLMにおけるバイアスの出現しやすさを評価した.その結果,性能を維持しつつ複数属性のバイアスの出現を抑制することが可能であることが示された.
Authentication for paper PDF access
A password is required to view paper PDFs. If you are a registered participant, please log on the site from Participant Log In.
You could view the PDF with entering the PDF viewing password bellow.