2025年度 人工知能学会全国大会(第39回)

講演情報

オーガナイズドセッション

オーガナイズドセッション » OS-42 大規模言語モデルの安全対策 ― 大いなる力には、大いなる責任が伴う

[3F4-OS-42a] 大規模言語モデルの安全対策 ― 大いなる力には、大いなる責任が伴う

2025年5月29日(木) 13:40 〜 15:20 F会場 (会議室1001)

オーガナイザ:金子 正弘(MBZUAI),小島 武(東京大学),磯沼 大(The University of Edinburgh/東京大学),丹羽 彩奈(MBZUAI),大葉 大輔(ELYZA/東京科学大学),村上 明子(AIセーフティーインスティチュート),関根 聡(情報学研究所),内山 将夫(情報通信研究機構),Danushka Bollegala(The University of Liverpool/Amazon)

13:40 〜 14:00

[3F4-OS-42a-01] 中国系大規模言語モデルにおける検閲的ファインチューニング

〇伊藤 亜聖1、高口 康太2 (1. 東京大学、2. 千葉大学)

キーワード:大規模言語モデル、中国、検閲、ファインチューニング

中国で開発される大規模言語モデル(LLM)には「社会主義核心価値観を堅持する」ことが求められている。先行研究は敏感質問を構築し、その問題を検討してきた。本研究では検閲の内容を更に詳細に明らかにすることを目的として、まず2024年2月に公表された生成式人工智能服務安全基本要求を紹介する。次に中国電子技術標準化研究院と復旦大学が作成したベンチマーク問題集を利用してLLMを評価した。分析対象としたのは主要な中国系オープンソースLLM、それをもとに日本向けにファインチューニングされた派生系モデル、そして欧米系LLMである。分析の結果、中国系モデルおよび派生系モデルにおいて検閲の形跡が示された。これらのLLMを利用するうえで、中国系モデルに施されているファインチューニングを認識し、用途に応じて十分な確認を行っていくべきことが示唆される。

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

パスワード