大規模言語モデルとシソーラスを融合した特許文書を対象とする検索クエリ拡張

森 楓

10:20 〜 10:40

[4A1-GS-6-05] 大規模言語モデルとシソーラスを融合した特許文書を対象とする検索クエリ拡張

〇森楓^1,2、野中尋史³、邊土名朝飛⁴、河野誠也⁵、吉野幸一郎⁵、丸崎恒司¹、片岡翔太郎^1,6 (1. 長岡技術科学大学、2. 株式会社キカガク、3. 愛知工業大学、4. サイバーエージェント、5. 理化学研究所ガーディアンロボットプロジェクト、6. 株式会社マヨラボ)

キーワード：特許検索、大規模言語モデル、自然言語処理、クエリ拡張

特許検索とは，特許データベース内に存在する技術や発明．発明者，及び申請者に関するデータを調査するプロセスを指す．特に，特許侵害が裁判で認められれば，高額の賠償金やライセンス料を求められる可能性があるため，先行技術調査が重要である．ただし，特許文書は独自の語彙で構成され，かつ文書数が膨大なため，調査には膨大なコストがかかる．網羅的な検索を目指し，検索クエリを拡張する手法等がいくつか存在するが，総じて少数の特許にのみ存在する複雑な語彙に対応できない課題を抱えている．そこで本研究では，シソーラスと大規模言語モデル（LLM）を組み合わせたクエリ拡張を提案する．本研究ではLLMの出力傾向や既存のシソーラスとLLMによって生成される新たな単語の独立性や共起率に焦点を当て，手法に関する基礎的な分析を行った．結果として，大規模言語モデルで生成された新たな単語は，既存のシソーラスとの共起度が低かった．大規模言語モデルにより新たな語彙の生成に成功し，特許文書の独自の語彙や複雑な表現に対応した，網羅性の高い特許検索が実現できる可能性が示唆された．

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

講演情報

[4A1-GS-6] 言語メディア処理：

[4A1-GS-6-05] 大規模言語モデルとシソーラスを融合した特許文書を対象とする検索クエリ拡張

パスワード