2024年度 人工知能学会全国大会(第38回)

講演情報

ポスターセッション

ポスターセッション » ポスターセッション

[4Xin2] ポスターセッション2

2024年5月31日(金) 12:00 〜 13:40 X会場 (イベントホール1)

[4Xin2-86] コーパスのドメインサンプリングによるLLM事前学習の効果について

〇小原 有以1、相馬 菜生1、梶浦 照乃1、倉光 君郎1 (1.日本女子大学)

キーワード:コーパス構築、言語モデル、事前学習

大規模言語モデル(LLM)は様々な業界に革新をもたらしている.その動きの中,特定のドメイン知識を持つドメインに特化したLLMを開発する動きが進められている.そのようなLLMの活用で,ドメインタスクの効率を向上させることが期待されている.特定ドメインに特化したLLMを構築するためには,対象ドメインに関連する大規模なコーパスが不可欠である.しかし,そのようなコーパスの収集は困難であり,時間とリソースが限られている研究環境において,顕著な課題となる.本研究の目的は,ドメインに関連するコーパスを効率的に構築する手法を開発することである.この目的のもと,我々は,ドメインサンプリングという手法を提案する.SentencePieceを用いてドメインの専門用語を多く含む語彙モデルを構築し,トークン化の結果に基づいてドメインに関連するコーパスをサンプリングする手法である.本手法を用いてコードに関連するコーパスを構築し,それを事前学習に用いて日本語対応の軽量コードLLMの構築を行なった.本手法で収集したコーパスをコードLLM学習に用いることで,日本語からのコード生成能力が向上したことを報告する.

要旨・抄録、PDFの閲覧には参加者用アカウントでのログインが必要です。参加者ログイン後に閲覧・ダウンロードできます。
» 参加者用ログイン