2025年度 人工知能学会全国大会(第39回)

講演情報

一般セッション

一般セッション » GS-6 言語メディア処理

[3G1-GS-6] 言語メディア処理:

2025年5月29日(木) 09:00 〜 10:40 G会場 (会議室1002)

座長:高村 大也(産業技術総合研究所)

09:40 〜 10:00

[3G1-GS-6-03] 文長による内容語率の変化が引き起こす文ベクトルの品質低下

〇原 知正1、栗田 宙人1、横井 祥2,1,5、今泉 允聡3,5、乾 健太郎4,1,5 (1. 東北大学、2. 国立国語研究所、3. 東京大学、4. MBZUAI、5. 理化学研究所)

キーワード:自然言語処理、文埋め込み、文長

文や文書のベクトル化する技術は,いまや情報検索や文書分類など広範な自然言語処理アプリケーションの開発に不可欠となっている.しかし,文ベクトルの品質は長文では低下することが指摘されている.本稿では,文長によって文中の機能語や内容語の出現しやすさが変化することが,この文ベクトルの品質低下を引き起こすことを示す.まず,長文では内容語の割合が低下することを経験的・理論的に示す.次に,内容語の割合が小さくなることで異なるトピックの二文であっても文ベクトル同士の距離が小さくなることを,理論的・経験的に示す.これら二つの分析に基づき,文ベクトルの品質が長文では低下することを議論する.本稿で得られた結果は,内容語の影響力を文長に応じて動的に強める技術の必要性を示唆する.

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

パスワード