一般社団法人 日本医療情報学会

[2-F-5-01] 大規模言語モデルに内在する医療関連エイジズム評価

*関 倫久1、河添 悦昌1,2、瀧口 徹2、赤木 雄2、伊藤 弘将2、大江 和彦1,2 (1. 東京大学医学部附属病院, 2. 東京大学大学院医学系研究科)

Large language model, Ageism, Fairness in artificial intelligence

【目的】我が国は超高齢社会を迎え、世代間の分断を軽減・回避するための取り組みの重要性は今後さらに増すと考えられる。2021年にWHOは、エイジズム(ageism)に関する報告書を発表し、年齢を理由にした固定観念・偏見・差別による健康上の不利益、経済的な不利益の排除が急務であると提言した。近年大規模言語モデルには人間が有する偏見がモデルの中に持ち込まれている可能性が危惧されているが、医療関連エイジズムが既存の大規模言語モデルに潜在するかは現状では明らかになっていない。そこで本研究では大規模言語モデルに内在する医療関連エイジズムを評価し、可視化することを目的として検証を行った。【方法】本研究では対人関係間で発生しうる固定概念を対象とし、若年においてpositive、高齢においてnegativeな方向へ偏る概念について評価用データセットを作成した。既知の医療関連エイジズムの中から、治療介入の消極化(N=46)、医学的主訴の軽視(N=44)、自律尊重原理の軽視(N=38)を評価対象とし、GPT-3.5、GPT-4-turbo、GPT-4o、Claude-2.1、Claude-3.0、Gemini-1.0、Gemini-1.5に対して評価を行った。データセットの文章は、回答選択肢としてステレオタイプ、アンチステレオタイプ、無関係の3点をアノテーションされた選択肢とし、3択から穴埋めを行う形式とした。【結果】評価を行った全てのモデルはステレオタイプの選択肢を選択する割合が他の選択肢を選択する割合に比較して多い傾向にあった。ケンドールのタウ係数を算出し偏りの有意性を検証した結果、GPT-4o、Claude-2.1、Claude-3.0において治療介入の消極化の側面における有意なバイアスが認められた。【考察・結論】本研究はデータセットサイズによる検出力や検証範囲の限界を有する。しかし本研究により現行の大規模言語モデルの一部で治療介入の消極化に関連するエイジズムが内在する可能性が示された。【倫理的配慮】本研究は人間を対象とした医学研究に該当しないが医学に関連する研究であり、ヘルシンキ宣言の一般原則に準じて遂行された。