09:00 〜 10:40
[4Rin1-23] ECサイトにおける商品タイトルからの商品名抽出
キーワード:情報抽出、固有表現抽出、固有表現認識
本研究ではECサイトにおける商品タイトルからの商品名抽出というタスクを提案し,そのためのコーパスの作成およびそれを使った実験・分析を行った.従来の固有表現抽出タスクとの違いとして,一般的には文法的に意味が通る自然文を実験に使うことが多いが,このタスクで使用するデータは名詞句の集合であることが多いため文法構造をほぼ持たない.また,漢字かなやアルファベット,数字,記号が多用されるため,セグメンテーションが困難である.Term Weighting と系列ラベリング問題のふたつのアプローチで実験し,前者は TF-IDF を,後者は素性設計による手法と End-to-End なニューラルネットワークによる手法で検証した.その結果,ラベル列をF値で評価した場合はニューラルネットワーク手法が F値 23.0 と最も良い性能を発揮したが,高精度を達成したデータセットと比べるとかなりの性能低下が見られる.このことから本タスクは難易度が高いタスクであることが言える.