14:40 〜 15:00
[2H4-GS-11-04] アンラーニングを用いた複数属性に対するバイアス軽減の研究
キーワード:大規模言語モデル、アンラーニング、バイアス
大規模言語モデル(LLM)の学習では,訓練データのバイアス継承によりステレオタイプが助長される点が問題視されている.既存研究では,人間の評価結果に基づいたデータ削除やアンラーニングによる特定の一属性のバイアス軽減が行われているが,データ削除によるLLMの性能低下や特定の一属性の忘却が他の属性のバイアスを増幅させるという課題がある.そこで本研究では,アンラーニングにより性別,職業,宗教,人種の4属性のバイアスを誘発する知識をまとめて忘却させた.また,忘却後のLLMにおけるバイアスの出現しやすさを評価した.その結果,性能を維持しつつ複数属性のバイアスの出現を抑制することが可能であることが示された.
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。