18:00 〜 18:20
[1D5-GS-9-03] 日本語の文字種を考慮した単語の分散表現の学習手法
キーワード:単語の分散表現、日本語、文字種
本稿では,単語の分散表現において,日本語の文字種により異なるルールを適用しサブワードを抽出する学習手法を提案する.これまで,文字のn-gramを利用するFastTextを代表として,単語をサブワードに分割することでより性能の良い分散表現を学習する手法が提案されてきた.しかし,既存手法には分割前の単語の意味と無関係な意味をもつサブワードが出現するという問題が残されている.これに対して提案手法は,日本語における漢字とひらがな・カタカナの性質の違いに着目することで無関係なサブワードの出現を抑制し,さらによりよい分散表現を学習する.単語の分散表現の類似度タスクによる評価の結果,提案手法の優位性が確認された.
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。