[3Win5-02] 数値への逆翻訳による大規模言語モデルの数値データ説明の改善
キーワード:大規模言語モデル、強化学習、数値データ説明、逆翻訳、自動評価
大規模言語モデル(LLM)の数値データを自然言語で説明する課題における, 数値へ逆翻訳を用いた強化学習手法を提案した. 数値データは, 多数の解釈の可能性があり, 分析が行われるまで事前に意味や説明すべき点を定義することが難しい. 本研究では, 数値データの説明において情報の復元性に着目し, 事前の定義が必要のない, 数値へ逆翻訳した際の誤差を報酬とした近接方策最適化(PPO)を用いた強化学習手法を導入した. その結果, 提案手法での訓練後に説明性能が有意に高くなった. また, 報酬関数の設計を必要としない訓練手法である直接方策最適化(DPO)での訓練と比較して, 説明性能が有意に高くなった. これらの結果は, 数値へ逆翻訳した際の誤差を報酬とすることでの説明性能の向上の有効性を示している.
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。