中国系大規模言語モデルにおける検閲的ファインチューニング

伊藤 亜聖

講演情報

オーガナイズドセッション

オーガナイズドセッション » OS-42 大規模言語モデルの安全対策 ― 大いなる力には、大いなる責任が伴う

[3F4-OS-42a] 大規模言語モデルの安全対策 ― 大いなる力には、大いなる責任が伴う

2025年5月29日(木) 13:40 〜 15:20 F会場 (会議室1001)

オーガナイザ：金子正弘（MBZUAI），小島武（東京大学），磯沼大（The University of Edinburgh／東京大学），丹羽彩奈（MBZUAI），大葉大輔（ELYZA／東京科学大学），村上明子（AIセーフティーインスティチュート），関根聡（情報学研究所），内山将夫（情報通信研究機構），Danushka Bollegala（The University of Liverpool／Amazon）

13:40 〜 14:00

[3F4-OS-42a-01] 中国系大規模言語モデルにおける検閲的ファインチューニング

〇伊藤亜聖¹、高口康太² (1. 東京大学、2. 千葉大学)

キーワード：大規模言語モデル、中国、検閲、ファインチューニング

中国で開発される大規模言語モデル(LLM)には「社会主義核心価値観を堅持する」ことが求められている。先行研究は敏感質問を構築し、その問題を検討してきた。本研究では検閲の内容を更に詳細に明らかにすることを目的として、まず2024年2月に公表された生成式人工智能服務安全基本要求を紹介する。次に中国電子技術標準化研究院と復旦大学が作成したベンチマーク問題集を利用してLLMを評価した。分析対象としたのは主要な中国系オープンソースLLM、それをもとに日本向けにファインチューニングされた派生系モデル、そして欧米系LLMである。分析の結果、中国系モデルおよび派生系モデルにおいて検閲の形跡が示された。これらのLLMを利用するうえで、中国系モデルに施されているファインチューニングを認識し、用途に応じて十分な確認を行っていくべきことが示唆される。

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。