大規模言語モデルのジェイルブレイクに対するインコンテキスト防御の役割明記による改良

若井 雄紀

16:20 〜 16:40

[3F5-OS-42b-03] 大規模言語モデルのジェイルブレイクに対するインコンテキスト防御の役割明記による改良

〇若井雄紀²、伊東邦大¹、鹿島久嗣² (1. 日本電気株式会社、2. 京都大学)

キーワード：大規模言語モデル、AIの安全性、信頼できるAI、ジェイルブレイク、インコンテキスト防御

大規模言語モデル(Large Language Model，LLM)は社会の幅広い分野で応用されている．一方，LLMに特殊なプロンプトを入力し，設計上意図されていない出力を引き出す，ジェイルブレイクと呼ばれる攻撃が報告されており，LLMの脆弱性として問題視されている．ジェイルブレイクには多種多様な攻撃手法が存在し，訓練時に対策を網羅することは困難である．そこで，模範的な回答例や望ましい挙動例をユーザーの入力文に付け加え，これをLLMに入力することで不適切な出力を抑制する，インコンテキスト防御が研究されている．しかし，従来手法は正当な入力に対しても回答を拒否するなどの性能劣化が報告されており，実運用でインコンテキスト防御を導入する障壁となっている．本稿では，LLMのジェイルブレイクに対するインコンテキスト防御の新規手法として，「役割明記法」を提案する．Llama-2-7b-chatを用いた実験で，提案手法は(1)回答性能を保持したままジェイルブレイクに対する防御性能を示し(2)従来手法と組み合わせることで回答性能と防御性能のよりよいバランスを達成した．

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

講演情報

[3F5-OS-42b] 大規模言語モデルの安全対策 ― 大いなる力には、大いなる責任が伴う

[3F5-OS-42b-03] 大規模言語モデルのジェイルブレイクに対するインコンテキスト防御の役割明記による改良

パスワード