2019年度 人工知能学会全国大会(第33回)

講演情報

インタラクティブセッション

[4Rin1] インタラクティブセッション2

2019年6月7日(金) 09:00 〜 10:40 R会場 (1F 展示ホール 中央)

09:00 〜 10:40

[4Rin1-13] 日本語大規模SNS+Webコーパスによる単語分散表現のモデル構築

〇松野 省吾1、水木 栄1、榊 剛史1 (1. 株式会社ホットリンク)

キーワード:単語分散表現、言語資源、コーパス、SNS

本稿では,筆者らの構築したTwitterをはじめとしたSNS上に存在する日本語の文章に対応する単語分散表現モデルを紹介する. 本モデルはSNSデータ,Wikipedia,Webページといった複数カテゴリを媒体とした日本語大規模コーパスから作成される.作成した単語分散表現モデルに対し,Speamanの順位相関係数を評価指標とした単語類似度算出タスクによる評価を実施したところ,wikipediaのみを学習コーパスとして用いたモデルと比較して7ポイント程度良い性能を得られた.本稿で紹介した単語分散表現モデルはWebサイトを通じて公開する予定であり,本モデルが活用されることで,SNSデータを対象とした自然言語処理研究が一層盛んになることを期待したい.