17:00 〜 17:20
[1P4-OS-1b-05] Crypto-LLM: 暗号化データと自然言語データを用いた二段階言語モデル事前学習
キーワード:大規模言語モデル、データ漏洩、暗号化、事前学習、継続事前学習
大規模言語モデルの利用が増加する中で、学習データに含まれるセンシティブなデータの漏洩リスクが重要な課題となっている。本研究では多表式置換暗号を用いて学習データを暗号化する手法を提案する。この方法により、センシティブデータの学習を防ぎつつ抽象的な言語パターンを学習する。本研究ではllama 2(1.1Bパラメータ)に対して暗号化データを延べ約84億トークン事前学習を行い、その後、平文を約42億トークン継続学習を行った。その上で、パープレキシティで学習したモデルの性能を比較するとともに、事前学習データに含まれる疑似的なPII(Personally Identifiable Information)の再現リスクを評価することでその有効性を検証した。
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。