[1Win4-46] LLM内部演算値を用いたLLM回答の信頼度定量化とOOD検知方式
キーワード:大規模言語モデル、信頼性、内部演算値、アテンション、分布外検知
Large Language Model(LLM)の出力の信頼性を担保することは重要な課題である.LLM内部演算値を用いた未知の入出力に対する信頼度定量化方式と当該信頼度を用いたOut-of-distribusion(OOD)検知方式を提案する.内部演算値としてLLMの主要部であるトランスフォーマにおけるアテンション層のベクトル(以下アテンションベクトル)に着目した.LLM出力が妥当であるときのLLM入力および出力それぞれに対応するアテンションベクトルの値を特徴量化し,当該値をIn-domain(ID)特徴量とする.未知の入力に対応するアテンションベクトルの値の特徴量と入力側のID特徴量との差違が大きいほど信頼度が低いとし,定量化した信頼度から未知の入力のOOD検知を行う.同様にして出力に対しても信頼度を定量化し,暫定のOOD検知を行う.入力側と出力側双方のOOD検知結果に基づいて,未知の出力に対するOOD検知を行う.実業務データを用いた性能評価で,OOD検知率(真陰性率)が95%以上かつID検知率(真陽性率)が95%以上の結果を得た.
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。