LLM に対する攻撃データの収集アプリケーションの開発と収集したデータの特性について

林 祐太

14:20 〜 14:40

[4A3-GS-10-02] LLM に対する攻撃データの収集アプリケーションの開発と収集したデータの特性について

〇林祐太¹、石黒雄介²、佐々木佑³、関根聡⁴ (1. 株式会社Determinant、2. 株式会社メイクリー、3. 東京大学大学院情報理工学系研究科、4. 国立情報学研究所大規模言語モデル研究開発センター)

[[オンライン]]

キーワード：AI Safety、Jailbreak、Prompt Injection

大規模言語モデルの実用化が進む中、Jailbreak や Prompt Injection などの攻撃手法への対策が喫緊の課題となっている。既存の防御手法のひとつである Llama Guard などの Safeguard Model は、日本語での攻撃に対して十分な性能を発揮できていないことが確認されている。本研究では、日本語での LLM 攻撃への防御力を向上させるため、ゲーミフィケーションを活用した攻撃データセット収集アプリケーション「AILBREAK」を開発した。このアプリケーションは、ユーザーが作成した攻撃プロンプトを収集する仕組みを実装しており、敵からパスワードを聞き出すなどの対戦ゲームの要素を取り入れた安全性カテゴリに基づく複数のお題から成るステージを用意し、教育効果とデータ収集を両立させる設計となっている。収集されたデータセットは、LLM の防御機能の改善や、日本語に特化した Safeguard Model の開発に活用されるべく公開予定である。本稿では、アプリケーションの設計、データ収集の手法、収集したデータの特性について報告する。

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

講演情報

[4A3-GS-10] AI応用：大規模言語モデル

[4A3-GS-10-02] LLM に対する攻撃データの収集アプリケーションの開発と収集したデータの特性について

パスワード