09:20 〜 09:40
[4G1-GS-4-02] 異常検知手法を用いたプレスリリースからの固有表現抽出
[[オンライン]]
キーワード:Webマイニング、テキストマイニング、異常検知、プレスリリース
本論文では、異常検知技術を用いてプレスリリーステキストから固有表現を外れ値として抽出する手法を提案し、その有効性を検証する。本研究で得られた固有表現を最終的には企業研究へ応用することを検討する。ここでは異常検知技術として、データの密集度に基づいて異常度をスコアリングするLocal Outlier Factor (LOF)を採用した。この手法は、高い次元数でも優れた性能を発揮することが確認されている。具体的な手順としては、まずプレスリリーステキスト全文を事前に学習したFastTextを使用し、プレスリリースに出現する名詞をベクトルに変換する。FastTextは、未知語に対する高い対応力を持つことから採用している。次に、取得したベクトルをLOFへ入力し、外れ値として検出する。実験では、外れ値としてIREXが定める8種類の固有表現をそれぞれ抽出できていることが確認できた。しかし、外れ値の中には、固有表現の定義から逸脱するワードやノイズが多く含まれていた。
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。