[2-E-1-2] 電子カルテにおける症状記載データ自動判別システムの構築
近年、臨床研究領域においてIT化が進み、データが電子的に集積されるようになっている(EDC)。医療機関においてもICTの導入が進み、診療記録を電子的に扱う電子カルテの導入が進んでいる。臨床研究で利用されるデータは、診療録記載(SOAP記載)としてフリーテキストで記載されていることが多く、SOAP記載をEDCで利用可能な形でデータ化することができれば、電子カルテおよびEDC双方の要求を満たしながら、連携が可能になると考えた。本研究では、電子カルテとEDCの連携の第1ステップとして、臨床研究において、疾患領域に関わらず収集することが要求される有害事象データを含む「症状記載」を対象として、SOAP記載から自動判別するシステム(分類器)を構築することを目的とした。対象は、国立循環器病研究センターの電子カルテのSOAP記載のうち、症状が記載されていると考えられるS、O項目の記載データ10000件とした。S、O項目の記載データに対して、形態素解析器MeCabならびに医療単語辞書を用いて単語に分割し、形態素解析を実施した結果、医療単語を含む全ての形態素数は13856個、医療単語数は3480個であった。また、臨床試験業務経験者がS、O項目の記載データを確認し、症状記載あり(正例)に“1”、症状記載なし(負例)に“0”を付し、教師データを作成した。S、O項目に出現する単語をパラメータとして、教師あり機械学習を実施し、全形態素を対象にしたものと、医療単語を対象にしたものそれぞれに関して、正負2値分類を行った。分類器は線形サポートベクターマシンを利用し、分類器の評価方法としては、10分割交差検定法を用いた。分類器の精度は、全形態素で82.7%の正答率となり、本システムの有効性が示唆された。今後は本システムの精度を上げるための対象選定を考慮するとともに、症状記載ありと自動判別されたSOAP記載データから、症状のみを抽出し、EDCに取り込むシステムの開発に繋げていくことが望まれる。