「著作権侵害抑制のための負の文脈内学習」

宇都宮 智

講演情報

オーガナイズドセッション

オーガナイズドセッション » OS-42 大規模言語モデルの安全対策 ― 大いなる力には、大いなる責任が伴う

[3F4-OS-42a] 大規模言語モデルの安全対策 ― 大いなる力には、大いなる責任が伴う

2025年5月29日(木) 13:40 〜 15:20 F会場 (会議室1001)

オーガナイザ：金子正弘（MBZUAI），小島武（東京大学），磯沼大（The University of Edinburgh／東京大学），丹羽彩奈（MBZUAI），大葉大輔（ELYZA／東京科学大学），村上明子（AIセーフティーインスティチュート），関根聡（情報学研究所），内山将夫（情報通信研究機構），Danushka Bollegala（The University of Liverpool／Amazon）

14:00 〜 14:20

[3F4-OS-42a-02] 「著作権侵害抑制のための負の文脈内学習」

〇宇都宮智¹、磯沼大^1,2,3、森純一郎^1,4、坂田一郎¹ (1. 東京大学、2. エディンバラ大学、3. 国立情報学研究所、4. 理研AIP)

キーワード：大規模言語モデル、文脈内学習、対照的デコーディング

本研究は、大規模言語モデル（LLMs）における新しい逆学習手法を提案する。Negative Prompts を作成し適用することで、著作権で保護されたコンテンツの無許可の再生成に対処するものである。LLM の再学習は膨大な計算コストがかかるため非現実的であり、内部パラメータにアクセスできないブラックボックス型 LLM にも適用可能な手法が求められる。提案手法は「Contrastive Decoding」と「In-Context Learning」を組み合わせて Negative Prompts を生成し、パラメータの更新を必要とせず特定の情報を選択的に忘却させることが可能である。Meta の Llama-3 8b モデルおよび OpenAI の GPT-4o モデルを用いた評価により、著作権保護コンテンツの生成を抑制しつつ、モデルの言語性能を維持できることを示した。また、提案手法はバイアス軽減や出力の倫理的整合性を確保するための応用可能性も持つ。提案手法は、LLM における忘却のための実用的かつスケーラブルな解決策を提供するものである。

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。