2019年度 人工知能学会全国大会(第33回)

講演情報

一般セッション

一般セッション » [GS] J-9 自然言語処理・情報検索

[2I5-J-9] 自然言語処理・情報検索: 文書の分類と評価

2019年6月5日(水) 17:20 〜 19:00 I会場 (306+307 小会議室)

座長:平 博順(大阪工業大学) 評者:貞光 九月(フューチャー株式会社)

18:20 〜 18:40

[2I5-J-9-04] 最も単純な文書分類器

〇白井 芳宜1、平田 豊1 (1. 中部大学)

キーワード:文書分類、分析、単純化

これまでで最も単純な文書分類器(The Simplest Document Classifier: SDC)を提案する. 文書分類器とは, 任意の文章を予め定められた一つ、もしくは複数のカテゴリに分類するものである。SDCは既存の深層畳み込みニューラルネットワーク(DCNN)を用いた方法と同等の分類精度を持ちながら, より高速に文書を分類できる. さらに, DCNNでは困難な, 分類結果導出過程の分析も可能である. SDCは, カテゴリ分類された各文章内に含まれる各単語に対し, その出現頻度に応じた重み付けをしながら学習する. 主要データベースである20 Newsgroups, Livedoor-news, IMDB, Twitterを用い, 現状最も優れたNNを用いた文書分類器fastTextとパフォーマンスを比較した. その結果, 学習時間, 分類精度においてSDCの優位性が実証された. また, Twitter文章を例に, 分類結果の導出過程を分析した結果, SDCが文書分類分析においても人が直感的に解釈しやすい内部パラメータを持つことが示された.