アンラーニングを用いた複数属性に対するバイアス軽減の研究

関 優花

14:40 〜 15:00

[2H4-GS-11-04] アンラーニングを用いた複数属性に対するバイアス軽減の研究

〇関優花¹、折原良平¹、田原康之¹、大須賀昭彦¹、清雄一¹ (1. 電気通信大学)

キーワード：大規模言語モデル、アンラーニング、バイアス

大規模言語モデル（LLM）の学習では，訓練データのバイアス継承によりステレオタイプが助長される点が問題視されている．既存研究では，人間の評価結果に基づいたデータ削除やアンラーニングによる特定の一属性のバイアス軽減が行われているが，データ削除によるLLMの性能低下や特定の一属性の忘却が他の属性のバイアスを増幅させるという課題がある．そこで本研究では，アンラーニングにより性別，職業，宗教，人種の4属性のバイアスを誘発する知識をまとめて忘却させた．また，忘却後のLLMにおけるバイアスの出現しやすさを評価した．その結果，性能を維持しつつ複数属性のバイアスの出現を抑制することが可能であることが示された．

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

講演情報

[2H4-GS-11] AIと社会：バイアス

[2H4-GS-11-04] アンラーニングを用いた複数属性に対するバイアス軽減の研究

パスワード