2025年度 人工知能学会全国大会(第39回)

講演情報

オーガナイズドセッション

オーガナイズドセッション » OS-1 データセットとベンチマークの技術的・社会的な視点

[1P4-OS-1b] データセットとベンチマークの技術的・社会的な視点

2025年5月27日(火) 15:40 〜 17:20 P会場 (会議室801-2)

オーガナイザ:鈴木 健二(ソニーグループ),原 聡(電気通信大学),谷中 瞳(東京大学),菅原 朔(国立情報学研究所)

17:00 〜 17:20

[1P4-OS-1b-05] Crypto-LLM: 暗号化データと自然言語データを用いた二段階言語モデル事前学習

〇小橋 洋平1、内山 史也1、小島 武1、岩澤 有祐1、松尾 豊1 (1. 東京大学)

キーワード:大規模言語モデル、データ漏洩、暗号化、事前学習、継続事前学習

大規模言語モデルの利用が増加する中で、学習データに含まれるセンシティブなデータの漏洩リスクが重要な課題となっている。本研究では多表式置換暗号を用いて学習データを暗号化する手法を提案する。この方法により、センシティブデータの学習を防ぎつつ抽象的な言語パターンを学習する。本研究ではllama 2(1.1Bパラメータ)に対して暗号化データを延べ約84億トークン事前学習を行い、その後、平文を約42億トークン継続学習を行った。その上で、パープレキシティで学習したモデルの性能を比較するとともに、事前学習データに含まれる疑似的なPII(Personally Identifiable Information)の再現リスクを評価することでその有効性を検証した。

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

パスワード