2025年度 人工知能学会全国大会(第39回)

講演情報

一般セッション

一般セッション » GS-10 AI応用

[4A3-GS-10] AI応用:大規模言語モデル

2025年5月30日(金) 14:00 〜 15:40 A会場 (大ホール)

座長:石川 翔吾(静岡大学)

14:20 〜 14:40

[4A3-GS-10-02] LLM に対する攻撃データの収集アプリケーションの開発と収集したデータの特性について

〇林 祐太1、石黒 雄介2、 佐々木 佑3、関根 聡4 (1. 株式会社Determinant、2. 株式会社メイクリー、3. 東京大学大学院 情報理工学系研究科、4. 国立情報学研究所 大規模言語モデル研究開発センター)

[[オンライン]]

キーワード:AI Safety、Jailbreak、Prompt Injection

大規模言語モデルの実用化が進む中、Jailbreak や Prompt Injection などの攻撃手法への対策が喫緊の課題となっている。既存の防御手法のひとつである Llama Guard などの Safeguard Model は、日本語での攻撃に対して十分な性能を発揮できていないことが確認されている。本研究では、日本語での LLM 攻撃への防御力を向上させるため、ゲーミフィケーションを活用した攻撃データセット収集アプリケーション「AILBREAK」を開発した。このアプリケーションは、ユーザーが作成した攻撃プロンプトを収集する仕組みを実装しており、敵からパスワードを聞き出すなどの対戦ゲームの要素を取り入れた安全性カテゴリに基づく複数のお題から成るステージを用意し、教育効果とデータ収集を両立させる設計となっている。収集されたデータセットは、LLM の防御機能の改善や、日本語に特化した Safeguard Model の開発に活用されるべく公開予定である。本稿では、アプリケーションの設計、データ収集の手法、収集したデータの特性について報告する。

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

パスワード