LLMエージェント間の反復的な相互作用によるプロンプトインジェクションへの対処

佐藤 豪

12:40 〜 13:00

[4I2-GS-11-03] LLMエージェント間の反復的な相互作用によるプロンプトインジェクションへの対処

〇佐藤豪¹、折原良平¹、田原康之¹、大須賀昭彦¹、清雄一¹ (1. 電気通信大学)

キーワード：大規模言語モデル、マルチエージェント、AI倫理

近年大規模言語モデルの需要が高まる一方で，プロンプトインジェクションと呼ばれるセキュリティ攻撃が深刻な課題となっている．この課題に対処するために数多くの研究が行われているが，データセットの不足や攻撃手段の増加などに伴う汎用性の低下が問題視されている．そこで，本研究では複数のLLMエージェントにより，プロンプトインジェクションを誘発するプロンプトの生成・評価を行うチームをそれぞれ構築する．その上で，チーム間によるプロンプトの生成と有害性の評価を交互に繰り返す中で，多様な攻撃への対処を可能にすることを目的とする．その結果，ベースラインと比較して高い精度でプロンプトの有害性を評価できることが確認された．

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

講演情報

[4I2-GS-11] AIと社会：

[4I2-GS-11-03] LLMエージェント間の反復的な相互作用によるプロンプトインジェクションへの対処

パスワード