2020年度 人工知能学会全国大会(第34回)

講演情報

一般セッション

一般セッション » J-9 自然言語処理・情報検索

[1D5-GS-9] 自然言語処理・情報検索: モデルと意味獲得

2020年6月9日(火) 17:20 〜 19:00 D会場 (jsai2020online-4)

座長:若木裕美(ソニー)

18:00 〜 18:20

[1D5-GS-9-03] 日本語の文字種を考慮した単語の分散表現の学習手法

〇平出 聡1、田中 瑛一1、大西 健司1 (1. 富士ゼロックス株式会社)

キーワード:単語の分散表現、日本語、文字種

本稿では,単語の分散表現において,日本語の文字種により異なるルールを適用しサブワードを抽出する学習手法を提案する.これまで,文字のn-gramを利用するFastTextを代表として,単語をサブワードに分割することでより性能の良い分散表現を学習する手法が提案されてきた.しかし,既存手法には分割前の単語の意味と無関係な意味をもつサブワードが出現するという問題が残されている.これに対して提案手法は,日本語における漢字とひらがな・カタカナの性質の違いに着目することで無関係なサブワードの出現を抑制し,さらによりよい分散表現を学習する.単語の分散表現の類似度タスクによる評価の結果,提案手法の優位性が確認された.

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

パスワード