2021年度 人工知能学会全国大会(第35回)

講演情報

一般セッション

一般セッション » GS-6 言語メディア処理

[4J3-GS-6f] 言語メディア処理:データセットとその利用

2021年6月11日(金) 13:40 〜 15:20 J会場 (GS会場 5)

座長:亀甲 博貴(京都大学)

13:40 〜 14:00

[4J3-GS-6f-01] 複単語表現の意味計算を要する文類似度評価データの構築

〇神戸 隆志1、横井 祥1,2、吉川 将司1,2、乾 健太郎1,2 (1. 東北大学、2. 理化学研究所)

キーワード:言い換え識別、複単語表現、文類似度

類似テキスト検索や生成されたテキストの自動評価など,自然言語処理・テキストマイニングの広範なアプリケーションにおいて文の類似度の計算が重要な役割を果たす.しかし文類似度に関する研究の多くは,自然言語における重要な要素である複単語表現 (Multi-Word Expression; MWE) を考慮していない.複単語表現とは “hot dog” のように句を構成する各単語の意味から句全体の意味を自然に推定できないような句である.言うまでもなく,文全体の意味計算のためには各文に含まれる単語単位での意味計算だけでなく複単語表現の意味計算が必要となる.複単語表現に頑健な文類似度尺度の研究開発を後押しするため,複単語表現の意味計算を要する文類似度評価データを構築する.具体的には,逆翻訳と制約付き文生成を組み合わせた文ペアの生成手法と,BERT によるマスクの予測に基づく文ペアの生成手法を用いる.提案手法によって,類似した文ペアとそうでない文ペアのバランスの取れたデータを作ることが可能であることを示した.

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

パスワード