4:10 PM - 4:30 PM
[3C4-J-9-02] A consideration of word sense disambiguation of company name utilizing securities report
Keywords:NLP, Word Sense Disambiguation, Distributed Representation
多義語に対して、対象語の周辺情報などから語義を識別する語義曖昧性解消という研究分野がある。本研究は対象語を企業名に絞り、教師あり学習で構築した分類器に匹敵する分類精度を、教師なし学習で達成することを目指した。企業名の語義曖昧性解消ができれば、適切な検索キーワードを思いつかずとも、特定事業の情報のみを抽出できるようになることが期待される。分類対象の典型例として「ヤマハ」について、①楽器メーカー②二輪メーカー③それ以外、の3つの語義に識別するタスクの正答率を、複数の分類方法について比較した。
本研究の結果、有価証券報告書から事業別単語ベクトルを作成し、事業別単語ベクトルと分類対象文中の語の類似度から分類を行う方法により、対象語の周辺情報から得た素性ベクトルを活用した教師あり学習による分類方法と、同程度の分類精度を達成した。教師あり学習で必要な教師データ作成の工数をかけることなく、有価証券報告書を活用することで同程度の正答率を達成した点に価値がある。また本研究の手法で分類が困難であった例の考察により、未知語に対する類似性を判定するモデルの導入などにより、精度向上の余地がある可能性も示唆された。
本研究の結果、有価証券報告書から事業別単語ベクトルを作成し、事業別単語ベクトルと分類対象文中の語の類似度から分類を行う方法により、対象語の周辺情報から得た素性ベクトルを活用した教師あり学習による分類方法と、同程度の分類精度を達成した。教師あり学習で必要な教師データ作成の工数をかけることなく、有価証券報告書を活用することで同程度の正答率を達成した点に価値がある。また本研究の手法で分類が困難であった例の考察により、未知語に対する類似性を判定するモデルの導入などにより、精度向上の余地がある可能性も示唆された。