ステレオタイプを含むプロンプトに対する日本語LLMの安全性の分析

中西 映人

14:20 〜 14:40

[2H4-GS-11-03] ステレオタイプを含むプロンプトに対する日本語LLMの安全性の分析

中西映人¹、〇佐野幸恵¹、刘耿²、ピエーリフランチェスコ² (1. 筑波大学、2. ミラノ工科大学)

キーワード：大規模言語モデル、ステレオタイプ、日本語LLM、毒性分析、感情分析

大規模言語モデル（LLM）が注目を集める一方で、ステレオタイプ的な出力や根底にある社会的バイアスへの懸念も高まっている。しかし英語を対象としたLLMの研究は広く行われているが、日本語モデルに関する研究は依然として限られている。そこで本研究では、ステレオタイプ的な内容を含むプロンプトを与えた際に、日本語ベースのLLMが安全に働くかどうかを検証する。 301の社会集団と12のステレオタイプ誘発テンプレートを組み合わせて3,612のプロンプトを作成し、日本語・英語・中国語で訓練されたモデルを用いて3つのタスクを実施した。分析の結果、LLM-jpは応答拒否率が最も低く、他のモデルと比較して毒性の高い否定的な応答を生成しやすいことが明らかになった。さらに、与えるプロンプトがモデルの応答に大きな影響を与え、特定の社会集団カテゴリに対する過度な応答も見られた。これらの結果は、日本語LLMにおける安全性メカニズムの改善の必要性を示しており、バイアスの軽減や安全かつ責任ある運用に向けた議論に貢献する。

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

講演情報

[2H4-GS-11] AIと社会：バイアス

[2H4-GS-11-03] ステレオタイプを含むプロンプトに対する日本語LLMの安全性の分析

パスワード