大規模言語モデルにおける有害コンテンツの逆学習

盧 慧敏

17:30 〜 17:50

[2T6-OS-5c-01] 大規模言語モデルにおける有害コンテンツの逆学習

〇盧慧敏¹、磯沼大^1,2、森純一郎^1,3、坂田一郎¹ (1. 東京大学、2. エディンバラ大学、3. 理研AIP)

キーワード：生成AI、大規模言語モデル、デバイアス、逆学習

大規模言語モデル（LLM）は、膨大なコーパスで学習を行うため、時に人が抱くバイアスや差別的な表現をも学習してしまう。
従来のバイアス除去手法は一定の効果を示すものの、LLMが学習した有害な表現を完全に除去することは依然として難しい。
本研究では、勾配上昇法で有害な表現の出現確率を下げる逆学習により、LLMから有害な表現の忘却を試みた。
具体的に、文章中のバイアスや差別に関する表現のみを逆学習したところ、有害な表現のみを選択的に忘却させることが可能になった。
評価実験では、提案手法により、言語モデルの性能を維持しつつ、LLMのバイアスや差別的な表現が抑制されることを確認した。
更に、結果からはクロスドメイン転移逆学習の可能性も示唆された：ある種類のバイアス（例えば、ジェンダー）でのデバイアスが、他の種類（例えば、人種や宗教）のバイアスも軽減する可能性がある。

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

講演情報

[2T6-OS-5c] ヒューマン・イン・ザ・ループAI

[2T6-OS-5c-01] 大規模言語モデルにおける有害コンテンツの逆学習

パスワード