JSAI2018

Presentation information

Oral presentation

General Session » [General Session] 6. Web Mining

[2C2] [General Session] 6. Web Mining

Wed. Jun 6, 2018 1:20 PM - 2:40 PM Room C (4F Orchid)

座長:柳井 孝介(日立製作所 研究開発グループ)

2:00 PM - 2:20 PM

[2C2-03] Finding Emerging Named Entities from Social Media Streams

〇Satoshi Akasaki1, Naoki Yoshinaga2, Masashi Toyoda2 (1. The University of Tokyo, 2. Institute of Industrial Science, The University of Tokyo)

Keywords:Named Entity Recognition, Natural Language Processing, Web Mining

現実世界では日々新しい事物や概念が誕生しており,それらの情報を網羅したデータベースは文書理解や情報検索,ウェブの監視など様々な場面で必要不可欠なものとなる.しかし,これら全てを人手で発見し補完することはもはや不可能であるため,計算機により自動でかつできる限り迅速に収集することが望ましい.
そこで本研究では,事物のデータベース構築の支援のため,リアルタイムに次々と新しい情報が発信されるソーシャルメディアストリームを対象とし,そこから新しい事物や概念を指す新固有表現を精度良く発見することを目指す.
提案手法は新固有表現が最初に出現する時にその新規性を示唆するような文脈で出現することに着目し,そのような文脈を含むツイートをWikipediaを用いたDistant Supervisionで自動的かつ大量に獲得し,それらのツイートから新固有表現を発見する系列ラベリングモデルを学習する.
実験では実際の一週間分のツイートに対して,辞書に未登録のものを新固有表現と判定するベースラインと提案手法を適用し,後者がより精度良く新固有表現を発見できることを示す.