17:30 〜 17:50
[2T6-OS-5c-01] 大規模言語モデルにおける有害コンテンツの逆学習
キーワード:生成AI、大規模言語モデル、デバイアス、逆学習
大規模言語モデル(LLM)は、膨大なコーパスで学習を行うため、時に人が抱くバイアスや差別的な表現をも学習してしまう。
従来のバイアス除去手法は一定の効果を示すものの、LLMが学習した有害な表現を完全に除去することは依然として難しい。
本研究では、勾配上昇法で有害な表現の出現確率を下げる逆学習により、LLMから有害な表現の忘却を試みた。
具体的に、文章中のバイアスや差別に関する表現のみを逆学習したところ、有害な表現のみを選択的に忘却させることが可能になった。
評価実験では、提案手法により、言語モデルの性能を維持しつつ、LLMのバイアスや差別的な表現が抑制されることを確認した。
更に、結果からはクロスドメイン転移逆学習の可能性も示唆された:ある種類のバイアス(例えば、ジェンダー)でのデバイアスが、他の種類(例えば、人種や宗教)のバイアスも軽減する可能性がある。
従来のバイアス除去手法は一定の効果を示すものの、LLMが学習した有害な表現を完全に除去することは依然として難しい。
本研究では、勾配上昇法で有害な表現の出現確率を下げる逆学習により、LLMから有害な表現の忘却を試みた。
具体的に、文章中のバイアスや差別に関する表現のみを逆学習したところ、有害な表現のみを選択的に忘却させることが可能になった。
評価実験では、提案手法により、言語モデルの性能を維持しつつ、LLMのバイアスや差別的な表現が抑制されることを確認した。
更に、結果からはクロスドメイン転移逆学習の可能性も示唆された:ある種類のバイアス(例えば、ジェンダー)でのデバイアスが、他の種類(例えば、人種や宗教)のバイアスも軽減する可能性がある。
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。