反復的Jailbreakを防ぐオンライン学習によるプロンプト最適化

金子 正弘; Zeerak Talat; Timothy Baldwin

[2Win5-49] 反復的Jailbreakを防ぐオンライン学習によるプロンプト最適化

〇金子正弘¹、Zeerak Talat²、Timothy Baldwin¹ (1.MBZUAI、2.エディンバラ大学)

キーワード：大規模言語モデル、Jailbreak、安全性

本研究は、反復的Jailbreak手法に対抗するため、オンライン学習で防御システムを動的に更新する枠組みを提案する。さらに、Jailbreakプロンプトは冗長性や曖昧性を増大させる特徴を持つ一方で、無害タスクに最適なプロンプトは異なる特徴を示すことに着目し、無害タスクにおける応答性能と有害タスクにおける拒否性能のトレードオフがない防御モデルを強化学習により実現する。
実験により、提案手法は5つの既存防御手法を上回り、3つのJailbreak手法に対して有意な防御性能を示すとともに、無害タスクの応答性能と有害タスクの拒否性能のどちらも向上することを確認した。

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

講演情報

[2Win5] ポスターセッション2

[2Win5-49] 反復的Jailbreakを防ぐオンライン学習によるプロンプト最適化

パスワード