2024年度 人工知能学会全国大会(第38回)

講演情報

オーガナイズドセッション

オーガナイズドセッション » OS-5 ヒューマン・イン・ザ・ループAI

[2T6-OS-5c] ヒューマン・イン・ザ・ループAI

2024年5月29日(水) 17:30 〜 18:30 T会場 (62研修交流室)

オーガナイザ:荒井 ひろみ(理研AIP)、小山 聡(名市大)、鹿島 久嗣(京大)、堤 瑛美子(東大)、森 純一郎(東大)

17:30 〜 17:50

[2T6-OS-5c-01] 大規模言語モデルにおける有害コンテンツの逆学習

〇盧 慧敏1、磯沼 大1,2、森 純一郎1,3、坂田 一郎1 (1. 東京大学、2. エディンバラ大学、3. 理研AIP)

キーワード:生成AI、大規模言語モデル、デバイアス、逆学習

大規模言語モデル(LLM)は、膨大なコーパスで学習を行うため、時に人が抱くバイアスや差別的な表現をも学習してしまう。
従来のバイアス除去手法は一定の効果を示すものの、LLMが学習した有害な表現を完全に除去することは依然として難しい。
本研究では、勾配上昇法で有害な表現の出現確率を下げる逆学習により、LLMから有害な表現の忘却を試みた。
具体的に、文章中のバイアスや差別に関する表現のみを逆学習したところ、有害な表現のみを選択的に忘却させることが可能になった。
評価実験では、提案手法により、言語モデルの性能を維持しつつ、LLMのバイアスや差別的な表現が抑制されることを確認した。
更に、結果からはクロスドメイン転移逆学習の可能性も示唆された:ある種類のバイアス(例えば、ジェンダー)でのデバイアスが、他の種類(例えば、人種や宗教)のバイアスも軽減する可能性がある。

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

パスワード