15:30 〜 15:50
[2Q5-IS-1-01] Analysis of Tender Documents Using Sequence Labeling with LLM-based Improver
キーワード:Text Mining, Large Language Model, Text Visualization
一般に入札説明書を理解するには専門知識が必要であり、また、そのページ数も長いため、入札説明書の読み込みには時間がかかる。従い、特定の情報を抽出する機能や重要単熟語を自動抽出する機能は入札説明書の読み込みを補助する上で重要である。
一方、このような機能を開発するにあたり、(1)訓練データがないこと、及び(2)BERT 等の言語モデルを用いた系列ラベリングを行うと数値情報を伴うラベルをうまく抽出できないことがボトルネックとなる。本問題解決のため、本研究でまず系列各抽出機能に対応する、系列ラベリングに関するデータセットを作成する。さらに、二点目の課題を解決するため、BERT による系列ラベリングと大規模言語モデルを用いた修正機能を組み合わせた抽出機能を提案する。
実データを用いた検証の結果、本提案手法の有効性が示された。さらに、応用として本研究成果をもとにWeb アプリケーションを開発すると共にその有効性を検証した。
一方、このような機能を開発するにあたり、(1)訓練データがないこと、及び(2)BERT 等の言語モデルを用いた系列ラベリングを行うと数値情報を伴うラベルをうまく抽出できないことがボトルネックとなる。本問題解決のため、本研究でまず系列各抽出機能に対応する、系列ラベリングに関するデータセットを作成する。さらに、二点目の課題を解決するため、BERT による系列ラベリングと大規模言語モデルを用いた修正機能を組み合わせた抽出機能を提案する。
実データを用いた検証の結果、本提案手法の有効性が示された。さらに、応用として本研究成果をもとにWeb アプリケーションを開発すると共にその有効性を検証した。
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。