[4Xin2-86] コーパスのドメインサンプリングによるLLM事前学習の効果について
キーワード:コーパス構築、言語モデル、事前学習
大規模言語モデル(LLM)は様々な業界に革新をもたらしている.その動きの中,特定のドメイン知識を持つドメインに特化したLLMを開発する動きが進められている.そのようなLLMの活用で,ドメインタスクの効率を向上させることが期待されている.特定ドメインに特化したLLMを構築するためには,対象ドメインに関連する大規模なコーパスが不可欠である.しかし,そのようなコーパスの収集は困難であり,時間とリソースが限られている研究環境において,顕著な課題となる.本研究の目的は,ドメインに関連するコーパスを効率的に構築する手法を開発することである.この目的のもと,我々は,ドメインサンプリングという手法を提案する.SentencePieceを用いてドメインの専門用語を多く含む語彙モデルを構築し,トークン化の結果に基づいてドメインに関連するコーパスをサンプリングする手法である.本手法を用いてコードに関連するコーパスを構築し,それを事前学習に用いて日本語対応の軽量コードLLMの構築を行なった.本手法で収集したコーパスをコードLLM学習に用いることで,日本語からのコード生成能力が向上したことを報告する.
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。