2019年度 人工知能学会全国大会(第33回)

講演情報

オーガナイズドセッション

オーガナイズドセッション » [OS] OS-8 マイニングと知識創発

[4G2-OS-8a] マイニングと知識創発(1)

2019年6月7日(金) 12:00 〜 13:40 G会場 (302A 中会議室)

砂山 渡(滋賀県立大学)、加藤 恒昭(東京大学)、西原 陽子(立命館大学)、森 辰則(横浜国立大学)、高間 康史(首都大学東京)

12:20 〜 12:40

[4G2-OS-8a-02] differential PLSA

テキスト情報の典型的なトピックではないより個性的なトピックの抽出

〇野守 耕爾1 (1. 株式会社アナリティクスデザインラボ)

キーワード:確率的潜在意味解析、テキストマイニング、トピックモデル、特許分析

PLSA(確率的潜在意味解析)などトピックモデルを適用してテキストデータからトピックを抽出する際に,典型的なトピックだけではなく,より個性的なトピックを抽出する手法としてdifferential PLSA(以下diff-PLSA)を提案する.本稿では,電気自動車に関連する26,419件の特許の要約文データを例に,通常のPLSAを適用した結果とdiff-PLSAを適用した結果を比較し,提案手法の有効性を検討した.その結果,通常のPLSAでは,頻度の多い表現でトピックが構成される傾向にあり,全体を表す代表的なトピックが抽出されやすいが,diff-PLSAでは,頻度の少ないより具体的で細かい表現もトピックを構成しており,より個性の強いトピックが抽出されていた.ビジネスにおけるデータ活用では,新たな気づきとなるインサイトを獲得することが求められるが,テキストデータからより個性的なトピックを抽出できるdiff-PLSAはそうしたインサイト獲得に向けて有用な知識を提供することが期待できる.