2025年度 人工知能学会全国大会(第39回)

講演情報

オーガナイズドセッション

オーガナイズドセッション » OS-42 大規模言語モデルの安全対策 ― 大いなる力には、大いなる責任が伴う

[3F4-OS-42a] 大規模言語モデルの安全対策 ― 大いなる力には、大いなる責任が伴う

2025年5月29日(木) 13:40 〜 15:20 F会場 (会議室1001)

オーガナイザ:金子 正弘(MBZUAI),小島 武(東京大学),磯沼 大(The University of Edinburgh/東京大学),丹羽 彩奈(MBZUAI),大葉 大輔(ELYZA/東京科学大学),村上 明子(AIセーフティーインスティチュート),関根 聡(情報学研究所),内山 将夫(情報通信研究機構),Danushka Bollegala(The University of Liverpool/Amazon)

14:20 〜 14:40

[3F4-OS-42a-03] 心理学的手法による大規模言語モデルの公平性評価

〇鈴木 淳哉1、福島 誠2 (1. デロイト トーマツ サイバー合同会社、2. 有限責任監査法人トーマツ)

キーワード:人工知能、大規模言語モデル、AIガバナンス、公平性評価、心理学

大規模言語モデル(LLM)の公平性を確保することは、AIガバナンスにおける課題の一つである. 本稿では、既存研究で心理学の手法を用いて発見されたLLMの特性を活用し、新たな公平性の指標の可能性を見出すことを目的とする.その特性の一つとして、特定の性別や人種を模倣する指示をLLMに与えた場合、指示内容から特定の質問に対する正答率に想定外の差異がでることが示されている. この特性を利用することで、LLMが内在的に持つ隠れたステレオタイプを測定する指標として活用できる可能性を示す. また別の特性として、STICSAスコアが高い(「不安」な状態の)場合に、LLMの偏見を持った回答をする割合も高くなるというが示されている. この関係性を基に、多様な入力に対してSTICSAスコアを偏見評価指標として活用できる可能性を示す. 本稿の結論として、これらのLLMに関する心理学的特性をAIガバナンスにおける公平性評価指標として適用することの意義を論じるとともに、その可能性を見出す.

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

パスワード