2018年度人工知能学会全国大会(第32回)

講演情報

口頭発表

一般セッション » [一般セッション] 6.Webマイニング

[2C2] Webマイニング-ソーシャルネットワーク応用

2018年6月6日(水) 13:20 〜 14:40 C会場 (4F オーキッド)

座長:柳井 孝介(日立製作所 研究開発グループ)

14:00 〜 14:20

[2C2-03] ソーシャルメディアストリームからの新固有表現の発見

〇赤崎 智1、吉永 直樹2、豊田 正史2 (1. 東京大学、2. 東京大学 生産技術研究所)

キーワード:固有表現抽出、自然言語処理、Webマイニング

現実世界では日々新しい事物や概念が誕生しており,それらの情報を網羅したデータベースは文書理解や情報検索,ウェブの監視など様々な場面で必要不可欠なものとなる.しかし,これら全てを人手で発見し補完することはもはや不可能であるため,計算機により自動でかつできる限り迅速に収集することが望ましい.
そこで本研究では,事物のデータベース構築の支援のため,リアルタイムに次々と新しい情報が発信されるソーシャルメディアストリームを対象とし,そこから新しい事物や概念を指す新固有表現を精度良く発見することを目指す.
提案手法は新固有表現が最初に出現する時にその新規性を示唆するような文脈で出現することに着目し,そのような文脈を含むツイートをWikipediaを用いたDistant Supervisionで自動的かつ大量に獲得し,それらのツイートから新固有表現を発見する系列ラベリングモデルを学習する.
実験では実際の一週間分のツイートに対して,辞書に未登録のものを新固有表現と判定するベースラインと提案手法を適用し,後者がより精度良く新固有表現を発見できることを示す.