[4-F-2-06] 症例報告を対象とした固有表現抽出手法の比較
Deep Learning, Natural Language Processing, Medical Records
電子カルテ内の医療文書は、非文法的な表現や断片化された表現をしばしば含んでおり、構造化されていないことが多い。こうした医療文書から固有表現を抽出し構造化することができれば、抽出された固有表現や構造情報を基にした、より発展的な識別学習モデルや医療文章生成モデルへの応用にもつながると考えられる。
本研究では、自然言語処理において近年顕著な成績をおさめている深層学習モデルの1つであるBidirectional Encoder Representations from Transformers (BERT) を固有表現抽出タスクに用いることで、精度の向上を試みた。BERTを固有表現抽出のタスクに応用する際に、さまざまなモデル構造が想定される。例として、それぞれの固有表現ラベルに対して識別を行うBERTベースのモデルを組み合わせる手法、固有表現全体を多クラス分類で識別する手法などが挙げられる。
方法として、NTCIR-16 RealMedタスクで公開されたタグ付きの日本語症例報告148例を利用し、症例報告に付与された、病名、部位名、時間表現、検査名、検査項目、検査値、薬品名、薬品値の8種類の固有表現ラベルに関して、BERTベースのモデルを複数検討して精度が高いモデルを探索した。また、データ量が多いとは言い難い医療文章のデータセットに対してData augmentationの効果についても検証した。
BERTベースのモデルを用いることで、非文法的な断片化した表現が多い医療文章においても適切なトークンに分解でき、トークンそれぞれに対する特徴量を得ることが期待される。
本研究では、自然言語処理において近年顕著な成績をおさめている深層学習モデルの1つであるBidirectional Encoder Representations from Transformers (BERT) を固有表現抽出タスクに用いることで、精度の向上を試みた。BERTを固有表現抽出のタスクに応用する際に、さまざまなモデル構造が想定される。例として、それぞれの固有表現ラベルに対して識別を行うBERTベースのモデルを組み合わせる手法、固有表現全体を多クラス分類で識別する手法などが挙げられる。
方法として、NTCIR-16 RealMedタスクで公開されたタグ付きの日本語症例報告148例を利用し、症例報告に付与された、病名、部位名、時間表現、検査名、検査項目、検査値、薬品名、薬品値の8種類の固有表現ラベルに関して、BERTベースのモデルを複数検討して精度が高いモデルを探索した。また、データ量が多いとは言い難い医療文章のデータセットに対してData augmentationの効果についても検証した。
BERTベースのモデルを用いることで、非文法的な断片化した表現が多い医療文章においても適切なトークンに分解でき、トークンそれぞれに対する特徴量を得ることが期待される。