17:40 〜 18:00
[1N4-J-9-02] 複数サブワード系列を考慮したBiLSTM-CRFモデルを用いた文書からの化合物名抽出
キーワード:固有表現抽出、ディープラーニング、サブワード
本稿では、化学分野の文書から化合物名を抽出するためのBiLSTM-CRFモデルを提案する。提案するモデルは、文脈情報を持った複数のサブワードLSTMを入力層に連結したものである。複数のサブワード系列を入力に加えることで、長い文脈情報や未知語に対して十分な特徴を得ることができる。 モデルの有効性を調べるためにCHEMDNERタスクに基づいて実験を行った。 結果として、抽出精度は通常のBiLSTM‐CRFモデルより優れており、未知語に対する実験結果は提案した方法がより良くはたらくことを示した。