2:00 PM - 2:20 PM
[2C2-03] Finding Emerging Named Entities from Social Media Streams
Keywords:Named Entity Recognition, Natural Language Processing, Web Mining
現実世界では日々新しい事物や概念が誕生しており,それらの情報を網羅したデータベースは文書理解や情報検索,ウェブの監視など様々な場面で必要不可欠なものとなる.しかし,これら全てを人手で発見し補完することはもはや不可能であるため,計算機により自動でかつできる限り迅速に収集することが望ましい.
そこで本研究では,事物のデータベース構築の支援のため,リアルタイムに次々と新しい情報が発信されるソーシャルメディアストリームを対象とし,そこから新しい事物や概念を指す新固有表現を精度良く発見することを目指す.
提案手法は新固有表現が最初に出現する時にその新規性を示唆するような文脈で出現することに着目し,そのような文脈を含むツイートをWikipediaを用いたDistant Supervisionで自動的かつ大量に獲得し,それらのツイートから新固有表現を発見する系列ラベリングモデルを学習する.
実験では実際の一週間分のツイートに対して,辞書に未登録のものを新固有表現と判定するベースラインと提案手法を適用し,後者がより精度良く新固有表現を発見できることを示す.
そこで本研究では,事物のデータベース構築の支援のため,リアルタイムに次々と新しい情報が発信されるソーシャルメディアストリームを対象とし,そこから新しい事物や概念を指す新固有表現を精度良く発見することを目指す.
提案手法は新固有表現が最初に出現する時にその新規性を示唆するような文脈で出現することに着目し,そのような文脈を含むツイートをWikipediaを用いたDistant Supervisionで自動的かつ大量に獲得し,それらのツイートから新固有表現を発見する系列ラベリングモデルを学習する.
実験では実際の一週間分のツイートに対して,辞書に未登録のものを新固有表現と判定するベースラインと提案手法を適用し,後者がより精度良く新固有表現を発見できることを示す.