事前学習コーパスの直接検索による LLM の知識獲得の構造理解

原口 大地; 田村 拓也; 矢野 太郎; 小山田 昌史

[2Win5-34] 事前学習コーパスの直接検索による LLM の知識獲得の構造理解

〇原口大地¹、田村拓也¹、矢野太郎¹、小山田昌史¹ (1.NEC データサイエンスラボラトリー)

キーワード：大規模言語モデル、知識獲得

大規模言語モデル（LLM）は事前学習を通じて膨大な知識を獲得することが知られているが，その獲得メカニズムの詳細については未だ十分な理解が得られていない．
先行研究においては，学習データ内での知識の出現頻度と知識獲得の程度との間に相関関係が確認されているものの，知識の出現パターンに関する実験的検証が不十分であることや，学習データ内に存在する矛盾した知識表現の影響が適切に考慮されていないなどの課題が存在する．
本研究では，これらの課題に対処するため，事前学習コーパスの体系的な分析を通じて，LLMにおける知識獲得プロセスの解明を試みた．実験の結果，学習コーパス内での知識の出現頻度が高いほど，より堅固な知識獲得が実現されることが確認された．
また，コーパス内に矛盾する知識表現が存在する場合，それが知識獲得の程度に影響を及ぼすことに加え，明示的な衝突ではなく一見すると衝突に見えないような潜在的な衝突の存在が示唆された．

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

講演情報

[2Win5] ポスターセッション2

[2Win5-34] 事前学習コーパスの直接検索による LLM の知識獲得の構造理解

パスワード