18:20 〜 18:40
[2I5-J-9-04] 最も単純な文書分類器
キーワード:文書分類、分析、単純化
これまでで最も単純な文書分類器(The Simplest Document Classifier: SDC)を提案する. 文書分類器とは, 任意の文章を予め定められた一つ、もしくは複数のカテゴリに分類するものである。SDCは既存の深層畳み込みニューラルネットワーク(DCNN)を用いた方法と同等の分類精度を持ちながら, より高速に文書を分類できる. さらに, DCNNでは困難な, 分類結果導出過程の分析も可能である. SDCは, カテゴリ分類された各文章内に含まれる各単語に対し, その出現頻度に応じた重み付けをしながら学習する. 主要データベースである20 Newsgroups, Livedoor-news, IMDB, Twitterを用い, 現状最も優れたNNを用いた文書分類器fastTextとパフォーマンスを比較した. その結果, 学習時間, 分類精度においてSDCの優位性が実証された. また, Twitter文章を例に, 分類結果の導出過程を分析した結果, SDCが文書分類分析においても人が直感的に解釈しやすい内部パラメータを持つことが示された.